机构数据分析培训之怎么保证Kafka数据完整

本文介绍了在机构数据分析培训中确保Kafka数据不丢失的方法。包括生产者数据的同步和异步模式,消息确认的三种状态,以及如何处理broker端和消费者端的数据不丢失问题。通过设置合适的参数和利用副本机制,可以保证数据的完整性和一致性。
摘要由CSDN通过智能技术生成

一、在机构数据分析培训中如何保证生产者数据不丢失呢?我们把它分为几个部分来讲解:

1)消息生产分为同步模式和异步模式

2)消息确认分为三种状态

A) 0:生产者只负责发送数据

B) 1:某个分区的领导接收数据并给出响应

C) -1:分区的所有副本在收到数据后都会做出响应

3)在同步模式下

a)生产者等待10S,如果代理没有给出ack响应,则认为失败。

b)生产者重试3次,如果没有响应,会报错。

4)在异步模式下

a)首先将数据保存在生产者的缓冲区中。缓冲区大小为20,000。32M

b)如果满足数据阈值或时间阈值的条件之一,则可以发送数据。

c)发送的一批数据大小为500条。16Kb

如果代理延迟给出确认并且缓冲区已满。开发人员可以设置是否直接清空缓冲区中的数据。

加米谷大数据

 二、如何保证broker端数据不丢失

 broker端:

broker端的消息不丢失,其实就是用partition副本机制来保证。

Producer ack -1(all). 能够保证所有的副本都同步好了数据。其中一台机器挂了,并不影响数据的完整性。

第三,如何确保消费者数据不丢失

消费者方面:为了保证数据不丢失,卡夫卡记录了每次消费的抵消值,下次继续消费时,会在上次抵消后继续消费。

而偏移量的信息保存在kafka0.8版本0.8之前的zookeeper中,0.8版本之后的topic中。即使消费者在运行过程中挂机,重启时也会找到offset的值,找到之前消费消息的位置,然后消费。由于每次消耗完消息后都不写入偏移量信息,这种情况可能会造成重复消耗,但不会丢失消息。

以上就是关于机构数据分析培训之怎么保证Kafka数据完整的讲解,如果想了解更多详情,请点击成都加米谷大数据官网吧!成都大数据培训学校、大数据开发培训、数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学视频可联系客服获取!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值