Kafka简记

给我一个自信的表情

于 2019-12-11 11:15:24 发布

阅读量147

点赞数 1

分类专栏： Kafka 文章标签： Kafka

本文链接：https://blog.csdn.net/ld3205/article/details/103489070

版权

Kafka 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

消息是Kafka的数据单元，一类数据单元的集合则称为主题，主题保存在Kafka服务器上，一个服务器被称作一个broker，主题存储在borker的分区上，一个主题可以存储在多个分区上。

流程介绍：

从消息的产生到消费来讲解Kafka的原理。

1.消息的产生

生产者Producer产生消息,消息在创建的时候，需要指定特定的主题，然后将消息发送到broker主机中；

2.消息的写入

当消息被创建时，注意Kafaka的消息必须被序列化，如果指定了分区的位置，则直接存储到主题的特定分区，如果没有指定分区，则会使用分区器，分区器根据消息的键，对该键值做散列，然后确定分区的位置，注意，消息会被添加到一个批次里，批次的大小可通过broker的配置文件中的batch.size设置，该参数指定的是一个批次字节数的大小，这个批次里的消息回被发送到相同的主体和分区上。当进行发送消息时，可以使用同步，异步，同步则是按顺序发送，异步则是不需要等待前一个消息发送的响应。当消息发送给borker后，则会判断消息写入是否成功，可以在borker配置文件中修改acks参数，该参数指定了需要有多少个分区副本收到该消息时，才会被认为写入成功，当消息被写入成功后，便返回一个RecordMetaData对象，他包含主题和分区，记录偏移量的信息。

3.消息的读取

对于消费者，一个主题可以有多个消费者，将消费同一个主题的消息者归属为一个消费组，消费组有个规定，即每个分区只能同时由消费者组中的一个消费者读取，即一个消费者组中的多个消费者不能同时读取同一个分区，这样做的目的：提高服务器吞吐量，一个主题的分区多少，决定消费者的最大上限，当每个分区指定一个消费者，则服务器的吞吐量，并发量最大，因此，对于一个主题，选择消费者的数量，可以根据主题的分区数量作参考，消费者的数量尽量小于主题的分区个数。

消费者指定主题，然后消费者会去borker指定的分区去读取生产者新生产的数据，消费者通过消息在分区中的偏移量量确定从哪开始读取消息，当部分消费者宕机，或者消费者消费的分区发生变化，则会引发在均衡，即分区的消费者转移为另一个消费者，在这个阶段，这个群组会不可用，直到分区转移成功。

可以通过轮询的方式，使消费者不断地请求服务器来获取消息，使用poll来拉取最新的消息，获取记录，键值，偏移量，当获取完毕，可以使用close方法关闭消费者。关于消息的偏移量，可以使用enable.auto.commit参数指定，默认是自动提交，即每过5秒，消费者会自动把从poll接受到的最大偏移量提交上去，关于这个提交的间隔5秒，可以通过auto.commit.interval.ms来修改，消费者往consumer_offset特殊主题中发送消息，消息包含每个分区的偏移量。当关闭自动提交，则可以使用同步提交comitSync()方法或异步提交commitAsync()方法来进行手动提交。当偏移量无效或者没有偏移量时，（消费者失效，包含的偏移量记录过时被删除），则默认使用latest方法，即从新的记录开始读取数据，也可以修改为earliest，即在偏移量无效的情况下，从起始位置读取分区的记录。

如有问题，敬请指出，谢谢，与君共勉。