kafka connect到底会不会重写/丢失数据

本文探讨了Kafka Connect在使用HDFS Connector时的数据恢复机制,关键点包括将offset记录在文件名中,每个Kafka分区独立编号。恢复流程确保数据不被重写但可能丢失,尤其是在offset获取失败时可能导致数据丢失。相关issue提供了问题解决方案,建议修改Kafka Connect以避免与服务器端commit offset。
摘要由CSDN通过智能技术生成

1. 说明

版本:confluent 2.0.0

关于kafka connect的offset commit机制,看这里:
http://blog.csdn.net/xianzhen376/article/details/51896604

2. hdfs connector恢复机制

2.1 关键点:
  1. 写入hdfs的最后一条记录的offset,记录在文件名中
  2. 数据是不停的往tmp文件写,然后rename至目标文件的,详见:
    http://blog.csdn.net/xianzhen376/article/details/51831448
  3. 不同kafka 分区的数据 独立进行offset 编号
  4. 不同kafka 分区的数据 不会写往同一hdfs文件
2.2 恢复流程:

恢复处理是基于kafka 分区的

  1. 从hdfs 中根据文件名拿到最后一条记录的offset,假设为12345678
  2. 通知kafka 该分区的数据,connect consumer group下次从12345678开始读数据;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值