kafka
文章平均质量分 53
是小李呀~
这个作者很懒,什么都没留下…
展开
-
关于kafka中的offset
针对一个Topic,Kafka消息日志中有个offset信息来标注消息的位置,Storm每次从kafka 消费数据,都是通过zookeeper存储的数据offset,来判断需要获取消息在消息日志里的起始位置。消费者组的好处就是提高消费能力(以前是一个人消费100条数据,现在是两个人,每人消费50条)整个kafka能正常工作依赖zookeeper,zookeeper会帮助Kafka存储信息,帮助管理整个集群,要想Kafka是共用的,要想kafka是一个集群,保证他们所用的zookeeper是同一套集群就原创 2021-05-24 19:18:22 · 570 阅读 · 0 评论 -
详解Kafka流程
1)Producer :消息生产者,就是向 kafka broker 发消息的客户端;2)Consumer :消息消费者,向 kafka broker 取消息的客户端;3)Consumer Group (CG):消费者组,由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。4)Broker :一台 kafka 服务器就是一个 broker。一个集群由多个 b.原创 2021-05-24 19:22:01 · 851 阅读 · 4 评论 -
kafka分区分配策略
一个 consumer group 中有多个 consumer,一个 topic 有多个 partition,所以必然会涉及到 partition 的分配问题,即确定那个 partition 由哪个 consumer 来消费。Kafka 有两种分配策略,一是 RoundRobin(轮询),一是 Range(范围)。1)RoundRobin 按消费者组划分的两个主题,每一个主题里面三个分区,一个消费者组有两个消费者,轮询的方式会利用哈希算法把这六个进行排序 ,然后轮流进两个消费者里面。这种方式的好原创 2021-05-25 20:06:18 · 1894 阅读 · 0 评论 -
kafka里分区副本、ISR、HW、LEO、offset
分区是把主题里的数据分机器放,同时也提高读写数据的并行度副本就是用来做备份的,有leader和follower之分,数据写道leader,消费也是找leader,当leader挂了之后找follower,中间会引出来ISR的概念,当leader挂了之后在ISR里选一个,哪些副本可以进到ISR看同步时间,老版本还看同步的数据量,当leader挂了,follower起来之后,会不会丢数据或者重复数据,就和生产者的ack有关。ISR里还有俩个概念,一个是HW,一个是LEO(同一个分区里面多个副本之间,每一个副本原创 2021-05-26 13:38:56 · 423 阅读 · 0 评论 -
kafka中ack的三种参数配置
ack 应答机制对于某些不太重要的数据,对数据的可靠性要求不是很高,能够容忍数据的少量丢失,所以没必要等 ISR 中的 follower 全部接收成功。所以 Kafka 为用户提供了三种可靠性级别,用户根据对可靠性和延迟的要求进行权衡,选择以下的配置。acks 参数配置:acks:0:producer 不等待 broker 的 ack,这一操作提供了一个最低的延迟,broker 一接收到还 没有写入磁盘就已经返回,当 broker 故障时有可能丢失数据;1:producer 等待 broke原创 2021-05-26 14:07:46 · 3311 阅读 · 0 评论