关于kafka
kafka是LinkedIn在2014年开源的一个复杂事件处理系统,将数据组织成事件流进行处理。即stream processing.
kafka特点
1. 分布式系统,易于扩展,容错性好
2. 使用日志分区,便于实现消息并发消费
3. 实时处理数据,并且对消息持续存储
术语解释
Topic: kafka中的消息以topic为单位进行归纳
producer: 向kafka发送消息的为producer
consumer: 从kafka中消费消息为consumer
broker: kafka集群中的一个服务即为一个broker
基于分布式,容错性较好
每个分区在Kafka集群的若干服务中都有副本,这样这些持有副本的服务可以共同处理数据和请求,副本数量是可以配置的。副本使Kafka具备了容错能力。每个分区都由一个服务器作为“leader”,零或若干服务器作为“followers”,leader负责处理消息的读和写,followers则去复制leader.如果leader down了,followers中的一台则会自动成为leader。集群中的每个服务都会同时扮演两个角色:作为它所持有的一部分分区的leader,同时作为其他分区的followers,这样集群就会据有较好的负载均衡。
日志分区
上图来自ppt,如图,对于每一个topic,kafka对其进行日志分区,每个分区的消息都是有序且不变的。每一个消息都由一个连续的值offset来标识。因为每一个分区都可以作为一个独立的服务进行消息的发布和消费,所以可以并发地操作topic。