1.事件流(Event streaming)
事件流是人体中枢神经系统的数字化的等价物。它是构建“始终在线”世界的技术基础,在这个世界中,企业越来越多地被定义为软件化和自动化,而软件的用户本身也是软件。
从技术上讲,事件流是从数据库、传感器、移动设备、云服务和软件应用程序等事件源实时捕获数据的做法,以事件流的形式;将这些事件流持久化存储以供以后检索;实时以及回顾性地操作、处理和响应事件流;并根据需要将事件流路由到不同的目标技术。因此,事件流确保了数据的持续流动和解释,以便正确的信息在正确的地点,正确的时间可用。
2.事件流作用
事件流适用于各种用例,跨越众多行业和组织。它的许多例子包括:
- 实时处理支付和金融交易,例如在证券交易所、银行和保险公司。
- 实时跟踪和监控汽车、卡车、车队和货物,例如在物流和汽车行业。
- 持续捕获和分析来自IoT设备或其他设备的传感器数据,例如在工厂和风力公园。
- 收集并立即响应客户互动和订单,例如在零售、酒店和旅游行业以及移动应用程序中。
- 在医院护理中监测患者并预测病情变化,以确保在紧急情况下及时治疗。
- 连接、存储并使公司不同部门产生的数据可用。
- 作为数据平台、事件驱动架构和微服务的基础。
3.Kafka是一个事件流平台意味着什么?
Kafka结合了三个关键能力,因此您可以使用一个经过实战考验的解决方案端到端实现您的事件流用例:
- 发布(写入)和订阅(读取)事件流,包括从其他系统中持续导入/导出您的数据。
- 持久可靠地存储事件流,只要您需要。
- 实时或回顾性地处理事件流。
所有这些功能都以分布式、高度可扩展、弹性、容错和安全的方式提供。Kafka可以在裸机硬件、虚拟机上部署,也可以在容器中部署,在本地以及云中。您可以选择自行管理Kafka环境或使用各种供应商提供的全托管服务。
4.Kafka如何运作?
Kafka是一个由服务器和客户端组成的分布式系统,通过高性能的TCP网络协议进行通信。它可以在本地硬件、虚拟机和容器上部署,在本地以及云环境中。
服务器: Kafka作为一台或多台服务器的集群运行,可以跨越多个数据中心或云区域。其中一些服务器形成存储层,称为代理。其他服务器运行Kafka Connect,以持续地将数据作为事件流导入和导出,将Kafka与您现有的系统集成,例如关系数据库以及其他Kafka集群。为了让您实现关键任务用例,Kafka集群具有高度的可扩展性和容错性:如果任何服务器失败,其他服务器将接管它们的工作,以确保不间断的操作,而不会丢失任何数据。
客户端: 它们允许您编写分布式应用程序和微服务,以并行、大规模和容错的方式读取、写入和处理事件流,即使在网络问题或机器故障的情况下也是如此。Kafka随附了一些这样的客户端,这些客户端由Kafka社区提供的数十个客户端增强:客户端可用于Java和Scala,包括更高级别的Kafka Streams库,适用于Go、Python、C/C++等许多其他编程语言,以及REST API。
5.主要概念和术语
事件记录了“某事发生”的事实,无论是在世界还是您的业务中。它也称为记录或消息(Message)。当您读取或写入Kafka中的数据时,您是通过事件的形式进行的。概念上,一个事件有一个键、值、时间戳和可选的元数据头。这里是一个示例事件:
- 事件键:“Alice”
- 事件值:“向Bob支付了200美元”
- 事件时间戳:“2020年6月25日下午2:06”
生产者(Producer)是发布(写入)事件到Kafka的客户端应用程序,消费者(Consumer)是订阅(读取和处理)这些事件的应用程序。在Kafka中,生产者和消费者是完全解耦的,并且彼此不知情,这是实现Kafka众所周知的高可扩展性的关键设计元素。
例如,生产者永远不需要等待消费者。Kafka提供了各种保证,例如能够精确处理事件的能力。
事件被组织并持久地存储在主题(Topic)中。非常简化地说,主题类似于文件系统中的文件夹,事件是该文件夹中的文件。
一个示例主题名称可能是“payments”。Kafka中的主题始终是多生产者和多订阅者:一个主题可以有零、一个或多个生产者将事件写入其中,以及零、一个或多个消费者订阅这些事件。主题中的事件可以根据需要读取尽可能多次 - 与传统的消息系统不同,事件在消费后不会被删除。相反,您通过每个主题的配置设置定义Kafka应该保留您的事件多长时间,之后旧的事件将被丢弃。Kafka的性能对于数据大小实际上是恒定的,因此长时间存储数据完全没有问题。
主题是分区(Partition)的,这意味着主题分布在位于不同Kafka代理上的“桶”上。
您的数据的分布式放置对于可扩展性非常重要,因为它允许客户端应用程序同时从/向许多代理读取和写入数据。当发布到主题的新事件时,它实际上被追加到主题的某个分区中。具有相同事件键(例如,客户或车辆ID)的事件被写入到同一个分区中,并且Kafka保证任何给定主题-分区的消费者总是能够按照它们被写入的完全相同的顺序读取那些分区中的事件。
为了使您的数据具有容错性和高可用性,每个主题都可以复制,甚至可以跨地理区域或数据中心复制,以便在出现问题、您想要对代理进行维护等情况下,始终有多个代理拥有数据的副本。一个常见的生产设置是3的复制因子,即,您的数据将始终有三份副本。这种复制是在主题-分区级别上执行的。