Kakfa的存储机制和读写流程
-
存储机制
-
kafka用topic对消息进行归类,每一个topic可以分为多个partition分区,分区中的消息不重复,每个分区分为多个segment(段),segment包含index文件和log文件,index文件存储索引,log文件存储数据,两种文件名相同,后缀不同。 kafka数据被消费后不会被立即删除,而是会根据两个设置定时检测做删除操作:
a.基于时间:log.retention.hours=168
b.基于大小:log.retention.bytes=1073741824
满足任何一个都会删除之前的segment,记住不是删除某一个消息,删除的最小单位是segment。
-
-
读流程
1.连接ZK集群,从ZK中拿到对应topic的partition信息以及partition的Leader的相关信息
2.连接到对应Leader、对应的broker
3.consumer将自己保存的offset发送给Leader
4.Leader根据offset等信息定位到segment(索引文件和日志文件)
5.根据索引文件中的内容,定位到日志文件中该偏移量对应的开始位置,读取相应长度的数据并返回给consumer
-
写流程
1.连接ZK集群,从ZK中拿到对应topic的partition信息和partition的Leader的相关信息
2.连接到对应Leader对应的broker
3.将消息发送到partition的Leader上
4.Follower从Leader上复制数据
5.依次返回ACK
6.直到所有ISR中的数据写完成,才完成提交,整个写过程结束
因为是描述写流程,没有将replica与zk的心跳通讯表达出来,心跳通讯就是为了保证kafka高可用。一旦Leader挂了,或者Follower同步超时或者同步过慢,都会通过心跳将信息报告给ZK,由ZK做Leader选举或者将Follower从ISR移动到OSR中。