Kafka面试宝典

走在下雨天的人

已于 2024-04-01 12:29:27 修改

阅读量714

点赞数 6

分类专栏： kafka 面试文章标签：面试职场和发展 kafka

于 2024-04-01 12:28:39 首次发布

本文链接：https://blog.csdn.net/qq_42988748/article/details/137228024

版权

1 Kafka基础面试篇

Kafka的那些设计让它有如此高的性能？

1.partition，producer和consumer端的批处理：提高并行度；
2.页缓存：大量使用页缓存，内存操作比磁盘操作快很多，数据写入直接写道页缓存，由操作系统负责刷盘，数据读取也是直接命中页缓存，从内存中直接拿到数据；
3.零拷贝:如果数据读取命中了页缓存，数据会从页缓存直接发送到网卡进行数据传输，省略了用户态和内核态的切换以及多次的数据拷贝；
4.顺序读写：Kafka的数据是顺序追加的，避免了低效率的随机读写；
5.优秀的文件存储机制：分区规则设置合理的话，所有消息都可以均匀的分不到不同分区，分区日志还可以分段，相当于举行文件被平均分配为多个相对较小的文件，便于文件维护和清理；
索引文件：Kafka含有.index和.timeindex索引，以稀疏索引的方式进行构造，查找时可以根据二分法在索引文件中快速定位到目标数据附近位置，然后再.log文件中顺序读取到目标数据；

Kafka的那些设计让它有如此高的性能：分区，顺序写磁盘，0-copy，稀疏索引利用二分查找找到对应数据，批量文件压缩

Kafka的用途有哪些？使用场景如何？
1. 异步处理，发送短信
2. 应用解耦
3. 流量削锋
4. 日志处理
5. 消息通讯
Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么
- ISR ：In-Sync Replicas 副本同步队列
- AR ：Assigned Replicas 所有副本
- ISR是由leader维护，follower从leader同步数据有一些延迟（包括延迟时间replica.lag.time.max.ms 和延迟条数replica.lag.max.message 两个维度，当前最新的版本0.10.x中只支持 replica.lag.time.max.ms 这个维度），任意一个超过阈值都会把follower剔除出ISR，存入OSR（Outof-Sync Replicas）列表，新加入的follower也会先存放在OSR中。

注：AR = ISR + OSR

Kafka中的HW、LEO、LSO、LW等分别代表什么？
- 在Kafka中，HW（High Watermark）表示消费者可见的最高偏移量，
- LEO（Log End Offset）表示当前分区的最高偏移量，
- LSO（Log Start Offset）表示当前分区的最低偏移量，
- LW（Log Write Offset）表示当前分区的写入偏移量。
- HW是消费者的偏移量上限，消费者只能消费到HW之前的消息。LEO是分区中消息的最高偏移量，LSO是分区中消息的最低偏移量，LW是分区的写入偏移量。
Kafka中是怎么体现消息顺序性的？
- 只能保证分区内消息顺序有序，无法保证全局有序
- 生产者：通过分区的leader副本负责数据顺序写入，来保证消息顺序性
- 消费者：同一个分区内的消息只能被一个group里的一个消费者消费，保证分区内消费有序
- 为什么做不到全局有序：因为消息会发送到不一样的分区，分区之间发送的顺序是无法保证的
- 如何做到并发且全局有序？
  - topic设置一个分区，发送端和消费端开启多线程生产和消费
  - 用kafka采集用户访问轨迹，重写分区器把用户id作为分区键，这样每个用户访问的埋点记录就能按顺序到一个分区，然后有序消费
Kafka中的分区器、序列化器、拦截器是否了解？它们之间的处理顺序是什么？
- 生产者拦截器和消费者拦截器，拦截器可以用来在消息发送前做一些准备工作
- 生产者需要用序列化器（Serializer）将key和value序列化成字节数组才可以将消息传入Kafka。消费者需要用反序列化器

最低0.47元/天解锁文章

走在下雨天的人

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Kafka面试宝典

死信队列：可以看作消费者不能处理收到的消息，也可以看作消费者不想处理收到的消息，还可以看作不符合处理要求的消息。重试队列：可以看作一种回退队列，具体指消费端消费消息失败时，为了防止消息无故丢失而重新将消息回滚到 broker 中，重试队列一般分成多个重试等级，每个重试等级一般也会设置重新投递延时，重试次数越多投递延时就越大；Kafka的那些设计让它有如此高的性能：分区，顺序写磁盘，0-copy，稀疏索引利用二分查找找到对应数据，批量文件压缩。如果我指定了一个offset，Kafka怎么查找到对应的消息？
复制链接

扫一扫

专栏目录