数据中心技术笔记

数据中心技术笔记

Kafka 是什么

Kafka

有人说kafka在使用上就像一个快递站,上游生产者发送数据给它存放,下游的消费者随时可以读取数据,不用考虑发送速率跟消费速率之间的匹配问题,发送的快了,kafka就存多一会儿。刚开始接触kafka的我,感觉形容的很贴切,但随着使用的经验增加,渐渐感觉这个比喻其实还不太准确。要我说,kafka更像是印刷厂,上游发布了一份消息到kafka里,kafka实际上是会把消息持久化下来的,相当于刻了个模板,下游来一个消费者A,kafka就印一份消息给他,A第二次来,kakfa就接着他上次的消息印后续的消息给他。但是如果来的是第二个消费者B,kakfa是认得的,会从头开始打印一份消息给这个新人。

意识到kafka这个特性,是从一个叫分组的属性开始的。

这个分组是指的消费者的分组,Consumer Group,同一个分组从kafka消费数据,kafka每次都会拿最新的给消费者,不论这个消费者是不是同一个ip,这样便保证了分布式的消费者与kafka的兼容性。而使用一个另外的Consumer Group来消费数据,kakfa会从第一条数据开始返回。利用这个特性,我们可以将同一批数据提供给不同的服务,或者单纯是引流到测试环境来做验证等,因为只要分组不同,就不会影响既有的消费者使用。

使用kafka时关注的另一个问题,是kafka是否有序
要回答这个问题,需要同时关注另一个问题,并行度,或者说吞吐量、性能等等。发送端的数据到达kafka是有先来后到的,按理说kafka按顺序记录下来,一条数据对应一个偏移量也没有什么难度。如果仅考虑kafka能不能做到数据有序,那其实是可以的。对于一个kafka主题(topic)来说,它创立之初就有几个属性是需要我们规划好的,特别是分区(partition)。如果一个topic里面只有一个分区的话,那就相当于kafka是在使用单线程接受数据,先到的数据写在前面,后到的数据往后排,从而体现出“有序”。当我们追求高并发、高吞吐量的时候,势必要使用多线程来读写数据,如果kafka使用多个线程来写数据的话要怎么写呢?没错,每个线程划分一个区域,各自写各自的。如果只有一个分区,在写数据跟读数据同时进行时,便会导致偏移量的错乱(不要想着加锁解决,加锁会降低并发的效率)。所以,当你的topic有多个分区时,整体来看,数据是不保证有序的,但是每个分区内部的数据却是有序的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值