定义:kafka已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。
角色扮演:
(1)消息系统:kafka和传统的消息系统都具备系统解耦、冗余存储、流量削峰、缓存、异步通信、扩展性、可恢复性等功能。与此同时,kafka还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。
(2)存储系统:kafka把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。也正是得益于kafka的消息持久化功能和多副本机制,我们可以把kafka作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主体的日志压缩功能即可。
(3)流式处理平台:kafka不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如:窗口、连接、变换和聚合等各类操作。
体系结构图:
在kafka中有两个特别重要的概念:主体(topic)与分区(partition)。kafka中的消息以主体为单位进行归类,生产者负责将消息发送到特定的主题,而消费者负责订阅主题并进行消费。
主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主体,很多时候也会把分区称为主体分区。同一个主体下的不同分区包含的消息是不同的,分区在存储层面可以看做一个可追加的日志(log)文件,消息在被追加到分区日志文件的时候都会分配一个特定的偏移量(offset)。offset是消息在分区中的唯一标识,kafka通过它来保证消息在分区内的顺序性,不过offset并不跨越分区,也就说,kafka保证的分区有序而不是主题有序。
多副本架构:
分区中的各种偏移量说明:
LogStartOffset日志文件起始处。
HW特定消息的偏移量,消费者只能拉取到这个offset前的消息。
LEO是Log End Offset 缩写,它标识当前日志文件中下一条待写入消息 offset。
说明:
(1)分区中 的所有副本统称为 AR ( Assigned Replicas)
(2)所有与 leader 副本保持一定程度同步的副本(包括 leader 副本在内〕组成 ISR On-Sync Replicas)
(3)leader 副本同步滞后过多的副本(不包 leader 副本)组成 OSR (Out-of-Sync Replicas )
(4)AR=ISR+OSR
(5)默认情况下, leader副本发生故障时,只 有在 ISR 集合中的副本才有资格被选举为新的 leader 而在 OSR 集合中的副本没有任何机会(不过这个原则也可以通过修改相应的参数配置来改变)
复制:
Kafka的复制机制既不是完全的同步复制,也不是单纯的异步复制。
事实上,同步复制要求所有能工作的folloer副本都复制完,这条消息才会确认为已成功提交。
而在异步复制方式下, follower 副本异步地从 eader 副本中复制数据,数据只要被 leader 副本写入就被认为已经成功提交。在这种情况下,如果followr 副本都还没有复制完而落后于leader 副本,突然 leader 副本着机,则会造成数据丢失。