【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA核心机制】

最新推荐文章于 2024-08-17 17:20:21 发布

Garyodd

最新推荐文章于 2024-08-17 17:20:21 发布

阅读量54

点赞数

分类专栏：博学谷It技术支持 java 文章标签：学习大数据 kafka

本文链接：https://blog.csdn.net/GaryNB/article/details/131565526

版权

博学谷It技术支持同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

java

25 篇文章 1 订阅

订阅专栏

文章讲述了Kafka中的分片和副本机制，用于提高读写效率和数据可靠性。在生产端，通过设置不同的ack策略平衡效率和安全性。在Broker端，结合磁盘存储、多副本和ack为-1确保数据不丢失。消费端通过保存消费位置（offset）来避免数据丢失，但可能存在重复消费。0.8.x之后，offset信息存储在__consumer_offsetstopic中。

摘要由CSDN通过智能技术生成

1.Topic的分片和副本机制

什么是分片呢?

分片:  逻辑概念
    相当于将一个Topic(大容器)拆分为N多个小容器, 多个小的容器构建为一个Topic

目的:
    1- 提高读写的效率: 分片可以分布在不同节点上, 在进行读写的时候, 可以让多个节点一起参与(提高并行度)
    2- 分布式存储: 解决了单台节点存储容量有限的问题

分片的数量:分片是可以创建N多个, 理论上没有任何的限制

什么是副本呢?

副本: 物理的概念
    针对每个分片的数据, 可以设置备份, 可以将其备份多个
    
目的: 
    提高数据的可靠性, 防止数据丢失

副本的数量: 副本的数量最多和集群节点数量保持一致, 但是一般设置为 2个 或者 3个

2.kafka如何保证数据不丢失

2.1 生产端是如何保证数据不丢失

当生产者将数据生产到Broker后, Broker应该给予一个ack确认响应,在Kafka中, 主要提供了三种ack的方案:

0: 生产者只管发送数据, 不关心不接收broker给予的响应

1: 生产者将数据发送到Broker端, 需要等待Broker端对应的topic上的对应的分片的主副本接收到消息后, 才认为发送成功了

-1(ALL): 生产者将数据发送到Broker端, 需要等待Broker端对应的topic上的对应的分片的所有的副本接收到消息后, 才认为发送成功了

效率角度: 0 > 1 > -1
安全角度: -1 > 1 > 0

思考: 在实际使用中, 一般使用什么方案呢? 三种都有可能
一般要根据消息的重要程度, 来选择采用什么方案, 如果数据非常的重要, 不能丢失, 一般设置为 -1

2.2 Broker端如何保证数据不丢失

保证方案: 磁盘存储 + 多副本 + ack为-1

2.3 消费端如何保证数据不丢失

第一步: 当Consumer启动后, 连接Kafka集群, 根据group.id 到Kafka中寻找上一次消费到了什么位置(偏移量)

第二步:
如果consumer找到了上次消费位置, 接着从这个位置开始消费数据

如果没有找到上一次消费的位置, 说明第一次来, 这个时候默认从当前时刻开始消费数据, 消费的位置也会从当前这个消息的偏移量位置开始消费

第三步: 消费者开始消费数据, 在消费的过程中, 每消费完数据后, 都要和kafka集群进行汇报, 汇报当前消费到了那一个偏移量信息

汇报方式: 自动 / 手动

思考: 请问在这种方式下是否可以保证消费端不会发送数据丢失的问题呢?

可以保证, 但是可能会存在重复消费的问题

思考: 消费者消费的消息偏移量信息是存储在哪里呢?

在 0.8.x版本之前, 消费者的消息偏移量信息是被记录在zookeeper中

在 0.8.x版本之后, 将消费者的消息偏移量信息记录在kafka集群上, 通过一个topic来记录: __consumer_offsets

此topic默认有50个分片 1个副本

Garyodd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA核心机制】

解决方案: 选择清空缓存池 / 不清空, 如果数据是可重复读的,那么直接让程序报错即可, 通知处理, 处理后, 重新获取发送即可, 如果数据是不可重复读,为了避免此种问题, 我们可以数据先在某个其他位置保存(备份), 当数据生产成功, 删除对应的数据, 生产不成功, 后续直接从保存的位置中获取生产即可。第三步: 消费者开始消费数据, 在消费的过程中, 每消费完数据后, 都要和kafka集群进行汇报, 汇报当前消费到了那一个偏移量信息。如果consumer找到了上次消费位置, 接着从这个位置开始消费数据。
复制链接

扫一扫