深入理解kafka_深入理解Kafka

最新推荐文章于 2021-04-01 09:45:22 发布

weixin_39614262

最新推荐文章于 2021-04-01 09:45:22 发布

阅读量65

点赞数

文章标签：深入理解kafka

本文章为书籍《深入理解Kafka》的读书笔记，不负任何版权责任。

Kafka特征：

系统解耦，流量削峰，冗余存储，持久化到磁盘，提供消息顺序性保障及回溯。

名词：

kafka整体架构

broker-partition多副本架构：一主多从，leader负责读写，follower只负责同步

broker-partition架构：消息按顺序写入broker的分区中

=================================================================

========================整体架构和细节分割线=========================

=================================================================

流程
- KafkaProducer -> interceptors -> serializer -> partitioner -> recordAccumulator (by partition) -> InFlightRequests (by broker node)
参数acks
- acks=1：默认值，只要分区leader成功写入，就会收到成功响应；如果未被其他follower拉取前leader崩溃，会丢失消息。
- acks=0：生产者发送消息后不需要等待任何响应；最小可靠，最大吞吐。
- acks=-1：需要等待ISR中所有副本都写入成功才会收到响应；最大可靠，最小吞吐。
参数retries和retry.backoff.ms
- retries配置生产者重试的次数，默认为0
- retry.backoff.ms配置两次重试之间的时间间隔
参数max.in.flight.requests.per.connection
- 默认为5，限制每个链接最多缓存数
- 如果需要严格顺序，需要此参数设置为1；且topic中分区数为1
- 如果第一批次写入失败，第二批次写入成功；生产者重发第一批次，会导致顺序错序
多线程同时写入一个partition - 单线程

ConsumerGroup

消费者和消费组
- 每一个分区只能被同一个ConsumerGroup中的一个消费者所消费
- 一个消费者可以消费一个或多个分区
- num(consumer) > num(partition)，会有消费者闲置
消息拉取和offset提交
- 不断轮询，重复地调用poll()方法，返回所订阅主题-分区上的一组消息
- max.poll.records默认为500条
- 当poll拉取[x+2,x+7]消息
  - 表示已经完成[0,x+1]所有消息的消费
  - 如果消费x+5的时候遇到异常
    - commitSync在消费前：导致消息丢失[x+5,x+7]
    - commitSync在消费后：导致重复消费[x+2,x+4]
- enable.auto.commit
  - 默认为true
  - 自动提交不是每消费一条就提交一次，而是定期提交poll的最大消息位移，默认每5s
  - 会有重复消费和消息丢失的问题，设置为false可以增加掌控性
- seek()
  - 可以指定partition中的offset进行消费
多线程消费同一个partition
- 通过assign(), seek()方法来实现
- 对于位移提交和顺序控制处理变得很复杂，作者不推荐
- 一般而言，分区是消费线程的最小划分单位

kafka日志结构

消息传输等级
- at most once：可能丢失，不会重复
- at least once：不会丢失，可能重复
- exactly once：不会丢失，不会重复
Kafka消息传输
- produce->kafka：
  - 超时会重试，所以是at least once
  - 使用新版本0.11.0.0的幂等可实现exactly once(enable.idempotence=true)，通过版本号实现
- kafka->produce：
  - 拉取到后就commit，at least once（中间失败，再读重复消费）
  - 处理完再commit，at most once（中间失败，再读消息丢失）
  - 使用新版本的事务可实现exactly once(transaction.id)
强稳定性场景
- 多副本
- acks=all
- min.insync.relicas: ISR集合中最少副本数
强顺序性场景
- topic中只有一个partition
- max.in.flight.requests.per.connection: 设置为1
延时队列
- 时间轮

关注