6.Kafka Acks详解

概述

   本文对 kafka 的一些核心概念进行解释,也是 kafka 需要调优的一些地方。

官方原文速递

Replication(分区副本)

  对于每个分区,存在一个 leadernfollower 。控制分区中 leader与 follower(1+N)数量的配置是 replication.factor。表示数据在 kafka 集群中数据副本数。默认及推荐的建议是3。

  kafka 中的分区副本两种类型:leaderfollowerfollower 是不对外提供服务的,所有的请求都必须由 leader来处理。

在这里插入图片描述

In-sync replicas

   broker 上分区的最新同步副本(ISR), 一个 leader 的副本一直是最新的 。只有当一个 follower 完全与 leader 一致时,它才是同步副本。换句话说,它不能落后于给定分区的最新记录。
如果一个 follower 落后于分区的最新数据,将不再将其视为同步副本。请参见图2,其中显示Broker3落后(不同步)。

总结:

  • 所说的同步不是指完全的同步,即并不是 follower 副本同步滞后于 leader 副本,就会被踢出 ISR 列表
  • kafka的 broker 端有一参数 replica.lag.time.max.ms ,表示 follower 副本与 leader 滞后的最长时间间隔,默认是 10s
  • 如果 follower 副本被踢出 ISR 列表,等追上了 leader 副本的进度 ,会再次加入 ISR 列表,所以 ISR 是一个动态列表。
    在这里插入图片描述
    注意:一般某个 follower 落后,可能是满负载,或者空间不足。

Acknowledgements

  acks 设置是在客户端(生产者)配置。表示 brokers 接受到写入成功的信息 。它支持三个值:01all

acks=0

  如果值为 0,生产者不会等待 broker 的响应。在 消息 发出的那一刻 ,就认为是写入成功。(见图3:生产者甚至不等待响应。消息已被确认!)

在这里插入图片描述

acks=1

  设置为1,当 leader 收到记录时那一刻,则认为写入成功,不再等待。(见图4:生产者等待响应。一旦收到响应,消息就会得到确认。broker 在收到记录后立即响应。followers 异步复制新记录。)

在这里插入图片描述

acks=all

  当设置为all时,当所有同步副本都收到记录时,此时生产者将认为写入成功。这是通过 leader broker 在响应请求时来实现的——一旦所有同步副本都收到记录,它就会发回响应。(见图5:没那么快!Broker 3还没有收到记录。)

在这里插入图片描述
leader broker 知道所有 followers 都同步完
在这里插入图片描述

Ack实用建议

  正如上面总结的那样,需要在性能与数据可靠性之间做平衡,如果想要保证数据准确与安全,配置 all ;如果想要保证性能,丢失一些数据,无影响 ,使用 0,来获得极致的性能、低延迟,高吞吐。

Minimum in-sync replica

  当 acks=all 时,需要所有的副本都同步了才会发送成功响应到生产者,这里面存在一个问题:如果 leader 副本是唯一的同步副本时,相当于 acts=1 ,所以是不安全的。
  kafka的 broker 端提供了 min.insync.replicas ,该参数控制的是消息至少被写入到多少个副本才算是 真正的写入,默认值 1 ,生产环境设定一个大于 1 的值可以提升消息的持久性。因为如果同步副本的数量低于该配置值 ,则生产者会收到错误响应,从而确保消息不丢失。
  请看下图,Broker2 同步成功,Broker3 没有同步成功,且不在 ISR 列表中,此时min.insync.replicas=2 表示消息发送成功 。
在这里插入图片描述

  下图对 acks=allacks=1 时,同是 min.insync.replicas=2 条件下发送消息,ACK 是不一样的。
在这里插入图片描述

Caveat(警告)

  这种情况容易引起误解。如果 acks=allmin.insync.replicas=2 ,此时 ISR 列表为 [1,2,3],那么还是会等到所有的同步副本都同步了消息,才会向生产者发送响应的 ack。因为 min.insync.replicas=2 只是一个最低限制,即同步副本少于该值配置值 ,则会抛出异常,而 acks=all 是需要保证所有的 ISR 列表的副本都同步了才可以发送成功响应。

在这里插入图片描述

  • 28
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
以下是一个flume的conf文件,请帮我逐行解释一下代码:“#定义三大组件的名称 a.sources = r a.sinks = k1 k2 k3 a.channels = c1 c2 c3 #将数据流复制给所有channel a.sources.r.selector.type = replicating  # 配置Source组件 a.sources.r.type = exec a.sources.r.command = cat /home/bit/novel/novel.csv # kafka a.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink a.sinks.k1.kafka.topic = data a.sinks.k1.kafka.bootstrap.servers = localhost:9092 a.sinks.k1.kafka.flumeBatchSize = 20 a.sinks.k1.kafka.producer.acks = 1 a.sinks.k1.kafka.producer.linger.ms = 1 a.sinks.k1.kafka.producer.compression.type = snappy a.channels.c1.type = memory a.channels.c1.capacity = 100000 a.channels.c1.transactionCapacity = 100 # mysql a.sinks.k2.type =com.us.flume.MysqlSink a.sinks.k2.hostname=localhost a.sinks.k2.port=3306 a.sinks.k2.databaseName=novel a.sinks.k2.tableName=table1 a.sinks.k2.user=bit a.sinks.k2.password=123456 a.channels.c2.type = memory a.channels.c2.capacity = 100000 a.channels.c2.transactionCapactiy = 2000 # hdfs a.sinks.k3.type = hdfs a.sinks.k3.hdfs.path = hdfs://localhost:9000/user/bit/novel #积攒多少个Event才flush到HDFS一次 a.sinks.k3.hdfs.batchSize = 100 #设置文件类型,可支持压缩 a.sinks.k3.hdfs.fileType = DataStream #多久生成一个新的文件 a.sinks.k3.hdfs.rollInterval = 5 a.channels.c3.type = memory a.channels.c3.capacity =100000 a.channels.c3.transactionCapacity = 100 # Bind the source and sink to the channel a.sources.r.channels = c1 c2 c3 a.sinks.k1.channel = c1 a.sinks.k2.channel = c2 a.sinks.k3.channel = c3”
05-24
这个conf文件是用来配置Apache Flume进行数据采集、传输和存储的。下面是每一行代码的解释: ``` #定义三大组件的名称 a.sources = r a.sinks = k1 k2 k3 a.channels = c1 c2 c3 ``` 这三行代码定义了三个组件的名称,分别是源(source)、汇(sink)和通道(channel),这些名称将在接下来的配置中被用到。 ``` #将数据流复制给所有channel a.sources.r.selector.type = replicating ``` 这行代码配置了源组件的复制策略,即数据流将会被复制到所有的通道中。 ``` # 配置Source组件 a.sources.r.type = exec a.sources.r.command = cat /home/bit/novel/novel.csv ``` 这两行代码配置了源组件的类型和命令。这里使用的是exec类型的源组件,它会执行一个命令,这个命令将会输出一些数据,这些数据将会被Flume采集并传输到汇组件。 ``` # kafka a.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink a.sinks.k1.kafka.topic = data a.sinks.k1.kafka.bootstrap.servers = localhost:9092 a.sinks.k1.kafka.flumeBatchSize = 20 a.sinks.k1.kafka.producer.acks = 1 a.sinks.k1.kafka.producer.linger.ms = 1 a.sinks.k1.kafka.producer.compression.type = snappy ``` 这些代码配置了一个Kafka的汇组件,它将数据发送到一个名为"data"的Kafka主题中。其中kafka.bootstrap.servers指定了Kafka的服务器地址和端口,kafka.flumeBatchSize指定了每个批次发送的事件数量,producer.acks指定了要求的确认级别,producer.linger.ms指定了等待确认的时间,producer.compression.type指定了压缩方式。 ``` a.channels.c1.type = memory a.channels.c1.capacity = 100000 a.channels.c1.transactionCapacity = 100 ``` 这些代码配置了一个类型为内存的通道,它的容量为100000个事件,事务容量为100个事件。 ``` # mysql a.sinks.k2.type =com.us.flume.MysqlSink a.sinks.k2.hostname=localhost a.sinks.k2.port=3306 a.sinks.k2.databaseName=novel a.sinks.k2.tableName=table1 a.sinks.k2.user=bit a.sinks.k2.password=123456 a.channels.c2.type = memory a.channels.c2.capacity = 100000 a.channels.c2.transactionCapactiy = 2000 ``` 这些代码配置了一个MySQL的汇组件,它将数据写入到一个名为"table1"的表中。其中hostname指定了MySQL服务器的地址,port指定了端口号,databaseName指定了数据库名称,user和password指定了登录信息。 ``` # hdfs a.sinks.k3.type = hdfs a.sinks.k3.hdfs.path = hdfs://localhost:9000/user/bit/novel a.sinks.k3.hdfs.batchSize = 100 a.sinks.k3.hdfs.fileType = DataStream a.sinks.k3.hdfs.rollInterval = 5 a.channels.c3.type = memory a.channels.c3.capacity =100000 a.channels.c3.transactionCapacity = 100 ``` 这些代码配置了一个HDFS的汇组件,它将数据写入到HDFS中的一个目录中。其中hdfs.path指定了HDFS的地址和目录,hdfs.batchSize指定了每个批次发送的事件数量,hdfs.fileType指定了文件类型,hdfs.rollInterval指定了多久生成一个新的文件。 ``` # Bind the source and sink to the channel a.sources.r.channels = c1 c2 c3 a.sinks.k1.channel = c1 a.sinks.k2.channel = c2 a.sinks.k3.channel = c3 ``` 这些代码将源组件和汇组件分别绑定到相应的通道上。也就是说,源组件从c1、c2、c3中采集数据,并将数据发送到k1、k2、k3中去。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

流月up

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值