Kafka常见问题

最新推荐文章于 2024-07-09 20:53:22 发布

专注_每天进步一点点

最新推荐文章于 2024-07-09 20:53:22 发布

阅读量367

点赞数

分类专栏： 09Kafka 文章标签： Kafka

09Kafka 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

问题1：
如何保证消息消费的有序性呢？比如说生产者生产了0到100个商品，那么消费者在消费的时候安装0到100这个从小到大的顺序消费，
那么kafka如何保证这种有序性呢？难度就在于，生产者生产出0到100这100条数据之后，通过一定的分组策略存储到broker的partition中的时候，
比如0到10这10条消息被存到了这个partition中，10到20这10条消息被存到了那个partition中，这样的话，消息在分组存到partition中的时候就已经被分组策略搞得无序了。
那么能否做到消费者在消费消息的时候全局有序呢？遇到这个问题，我们可以回答，在大多数情况下是做不到全局有序的。但在某些情况下是可以做到的。

比如我的partition只有一个，这种情况下是可以全局有序的。那么可能有人又要问了，只有一个partition的话，哪里来的分布式呢？哪里来的负载均衡呢？
所以说，全局有序是一个伪命题！全局有序根本没有办法在kafka要实现的大数据的场景来做到。但是我们只能保证当前这个partition内部消息消费的有序性。

结论：一个partition中的数据是有序的吗？回答：间隔有序，不连续。

针对一个topic里面的数据，只能做到partition内部有序，不能做到全局有序。特别是加入消费者的场景后，如何保证消费者的消费的消息的全局有序性，
这是一个伪命题，只有在一种情况下才能保证消费的消息的全局有序性，那就是只有一个partition！。

问题2：
Segment file是什么？

生产者生产的消息按照一定的分组策略被发送到broker中partition中的时候，这些消息如果在内存中放不下了，就会放在文件中，
partition在磁盘上就是一个目录，该目录名是topic的名称加上一个序号，在这个partition目录下，有两类文件，一类是以log为后缀的文件，
一类是以index为后缀的文件，每一个log文件和一个index文件相对应，这一对文件就是一个segment file，也就是一个段。
其中的log文件就是数据文件，里面存放的就是消息，而index文件是索引文件，索引文件记录了元数据信息。

说到segment file的索引文件和数据文件的一一对应，我们应该能想到storm中的Ack File机制，在spout发出去的时候要发一个Ack Tuple，
在下游的bolt处理完之后，它也要发一个Ack Tuple，这两个Ack Tuple里面包含了同样一份数据，这个数据叫做MessageId，它是一个对象，
这个对象里面包含两个比较重要的字段，一个是RootId，另一个是TupleId（也叫锚点Id），这个锚点Id会在我们发送数据的时候进行异或一下，
异或的结果才会发送给Ack那个Bolt。
问题3：
Segment文件命名的规则：partition全局的第一个segment从0（20个0）开始，后续的每一个segment文件名是上一个segment文件中最后一条消息的offset值。

那么这样命令有什么好处呢？假如我们有一个消费者已经消费到了368776（offset值为368776），那么现在我们要继续消费的话，怎么做呢？
看上图，分2个步骤，第1步是从所有文件log文件的的文件名中找到对应的log文件，第368776条数据位于上图中的“00000000000000368769.log”这个文件中，
这一步涉及到一个常用的算法叫做“二分查找法”（假如我现在给你一个offset值让你去找，你首先是将所有的log的文件名进行排序，然后通过二分查找法进行查找，
很快就能定位到某一个文件，紧接着拿着这个offset值到其索引文件中找这条数据究竟存在哪里）；第2步是到index文件中去找第368776条数据所在的位置。

索引文件（index文件）中存储这大量的元数据，而数据文件（log文件）中存储这大量的消息。

索引文件（index文件）中的元数据指向对应的数据文件（log文件）中消息的物理偏移地址。

专注_每天进步一点点

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Kafka常见问题

问题1：如何保证消息消费的有序性呢？比如说生产者生产了0到100个商品，那么消费者在消费的时候安装0到100这个从小到大的顺序消费，那么kafka如何保证这种有序性呢？难度就在于，生产者生产出0到100这100条数据之后，通过一定的分组策略存储到broker的partition中的时候，比如0到10这10条消息被存到了这个partition中，10到20这10条消息被存到了那个partiti...
复制链接

扫一扫

专栏目录