数据中心技术笔记

最新推荐文章于 2022-08-23 20:21:43 发布

小明小明★

最新推荐文章于 2022-08-23 20:21:43 发布

阅读量102

点赞数

本文链接：https://blog.csdn.net/qq_36002338/article/details/108857677

版权

数据中心技术笔记

Kafka 是什么

Kafka

有人说kafka在使用上就像一个快递站，上游生产者发送数据给它存放，下游的消费者随时可以读取数据，不用考虑发送速率跟消费速率之间的匹配问题，发送的快了，kafka就存多一会儿。刚开始接触kafka的我，感觉形容的很贴切，但随着使用的经验增加，渐渐感觉这个比喻其实还不太准确。要我说，kafka更像是印刷厂，上游发布了一份消息到kafka里，kafka实际上是会把消息持久化下来的，相当于刻了个模板，下游来一个消费者A，kafka就印一份消息给他，A第二次来，kakfa就接着他上次的消息印后续的消息给他。但是如果来的是第二个消费者B，kakfa是认得的，会从头开始打印一份消息给这个新人。

意识到kafka这个特性，是从一个叫分组的属性开始的。

这个分组是指的消费者的分组，Consumer Group，同一个分组从kafka消费数据，kafka每次都会拿最新的给消费者，不论这个消费者是不是同一个ip，这样便保证了分布式的消费者与kafka的兼容性。而使用一个另外的Consumer Group来消费数据，kakfa会从第一条数据开始返回。利用这个特性，我们可以将同一批数据提供给不同的服务，或者单纯是引流到测试环境来做验证等，因为只要分组不同，就不会影响既有的消费者使用。

使用kafka时关注的另一个问题，是kafka是否有序。
要回答这个问题，需要同时关注另一个问题，并行度，或者说吞吐量、性能等等。发送端的数据到达kafka是有先来后到的，按理说kafka按顺序记录下来，一条数据对应一个偏移量也没有什么难度。如果仅考虑kafka能不能做到数据有序，那其实是可以的。对于一个kafka主题（topic）来说，它创立之初就有几个属性是需要我们规划好的，特别是分区（partition）。如果一个topic里面只有一个分区的话，那就相当于kafka是在使用单线程接受数据，先到的数据写在前面，后到的数据往后排，从而体现出“有序”。当我们追求高并发、高吞吐量的时候，势必要使用多线程来读写数据，如果kafka使用多个线程来写数据的话要怎么写呢？没错，每个线程划分一个区域，各自写各自的。如果只有一个分区，在写数据跟读数据同时进行时，便会导致偏移量的错乱（不要想着加锁解决，加锁会降低并发的效率）。所以，当你的topic有多个分区时，整体来看，数据是不保证有序的，但是每个分区内部的数据却是有序的。

小明小明★

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据中心技术笔记

目录数据中心技术笔记Kafka数据中心技术笔记Kafka 是什么Kafka有人说kafka在使用上就像一个快递站，上游生产者发送数据给它存放，下游的消费者随时可以读取数据，不用考虑发送速率跟消费速率之间的匹配问题，发送的快了，kafka就存多一会儿。刚开始接触kafka的我，感觉形容的很贴切，但随着使用的经验增加，渐渐感觉这个比喻其实还不太准确。要我说，kafka更像是印刷厂，上游发布了一份消息到kafka里，kafka实际上是会把消息持久化下来的，相当于刻了个模板，下游来一个消费者A，kafka就
复制链接

扫一扫