kafka(三): 数据生产流程,数据复制与Replica Failover

本文介绍了Kafka的数据生产流程,包括ProducerRecord的创建、数据序列化、分区策略和消息确认。接着讨论了数据复制,每个partition有一个leader,follower从leader拉取数据以保持同步。Kafka通过ISR(In-Sync Replicas)确保数据一致性,并通过MirrorMaker实现实时集群间的消息复制。在数据可靠性方面,介绍了request.required.acks参数和min.insync.replicas配置,以及如何保证消息顺序。最后探讨了Replica Failover情况,包括部分宕机和全部宕机时的数据恢复策略。
摘要由CSDN通过智能技术生成

【这是一篇7月份躺在草稿箱的文章,今天翻出来整理一下。】

数据生产流程

1.发送到kafka的数据会封装为ProducerRecord对象,包含topic、partition、key、value信息;
2.调用send()方法后,将数据序列化为字节数组,如果没有指定分区 ,那么分区器会根据ProducerRecord 对象的键来计算一个分区;
3.当消息达到一个批次设定的量(消息放在缓冲区中),通过网络发送到不同的主题,不同的分区;
4.如果消息成功写入 Kafka,就返回 一 个
RecordMetaData 对象,它包含了主题和分区信息,以及记录在分区里的偏移量。如果写入
失败, 则告知生产者尝试重新发送消息,达到最大重试次数就抛出异常。

数据复制

第一个注册到Zookeeper的broker为Contrllor,除了具有一般 broker 的功能之外,还负责加入集群的broker上的分区首领的选举(以及离开集群的broker上的首领分区的重新选举)。

  1. kafka中,每一个partition,有一个leader(所以集群并不是一定只有一个leader,可能有多个leader),其他follower去拉取数据。
  2. 考虑到数据的一致性,Kafka中,消费者只能读取被commit的数据,因为如果允许消费者读取非commit的数据,考虑消费者1读取机器A中的数据,而该数据只有A和leader中有数据,其他flower还没与pull复制,这个时候leader和A挂了

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值