Kafka吞吐量大的原因

最新推荐文章于 2024-07-30 09:27:19 发布

程研板

最新推荐文章于 2024-07-30 09:27:19 发布

阅读量1k

点赞数

分类专栏： # Kafka 文章标签： kafka 大数据

本文链接：https://blog.csdn.net/qq_38258720/article/details/108700833

版权

Kafka 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

概念及优劣势分析

在这里插入图片描述
与其他mq的区别：

kafka其实是个流处理平台，只是提供了发布订阅和topic支持的功能
吞吐量高，单区有序，但整体不保证有序
能够通过历史日志消费历史数据

kafka为什么吞吐量大

主要以下四个原因：
在这里插入图片描述

日志检索

在这里插入图片描述
每条消息的组成：

一般情况磁盘读写比内存读写慢很多(随机读写方面)。但是kafka支持的顺序读写，可能比内存的读写效率还快。

在这里插入图片描述 consumer会从磁盘中读取。

Kafka 日志存储: https://www.jianshu.com/p/aecb6d9d8c1c
kafka系列——日志篇: https://blog.csdn.net/linbiaorui/article/details/84574458

查看index文件：

bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files ~/app/tmp/kafka-log/topic_test-0/00000000000000000000.index

//输出结果：
offset: 0 position: 0

查看log文件：

bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files ~/app/tmp/kafka-log/topic_test-0/00000000000000000000.log  --print-data-log

//输出结果：
Starting offset: 0
baseOffset: 0 lastOffset: 3 count: 4 baseSequence: -1 lastSequence: -1 producerId: -1 producerEpoch: -1 partitionLeaderEpoch: 0 isTransactional: false isControl: false 
position: 0 CreateTime: 1600015276125 size: 137 magic: 2 compresscodec: NONE crc: 32980716 isvalid: true
| offset: 0 CreateTime: 1600015276124 keysize: 5 valuesize: 7 sequence: -1 headerKeys: [] key: key-1 payload: value-1
| offset: 1 CreateTime: 1600015276124 keysize: 5 valuesize: 7 sequence: -1 headerKeys: [] key: key-2 payload: value-2
| offset: 2 CreateTime: 1600015276125 keysize: 5 valuesize: 7 sequence: -1 headerKeys: [] key: key-5 payload: value-5
| offset: 3 CreateTime: 1600015276125 keysize: 5 valuesize: 7 sequence: -1 headerKeys: [] key: key-6 payload: value-6
baseOffset: 4 lastOffset: 7 count: 4 baseSequence: -1 lastSequence: -1 producerId: -1 producerEpoch: -1 partitionLeaderEpoch: 0 isTransactional: false isControl: false 
position: 137 CreateTime: 1600080591612 size: 137 magic: 2 compresscodec: NONE crc: 4029858374 isvalid: true
| offset: 4 CreateTime: 1600080591612 keysize: 5 valuesize: 7 sequence: -1 headerKeys: [] key: key-1 payload: value-1
| offset: 5 CreateTime: 1600080591612 keysize: 5 valuesize: 7 sequence: -1 headerKeys: [] key: key-2 payload: value-2
| offset: 6 CreateTime: 1600080591612 keysize: 5 valuesize: 7 sequence: -1 headerKeys: [] key: key-5 payload: value-5
| offset: 7 CreateTime: 1600080591612 keysize: 5 valuesize: 7 sequence: -1 headerKeys: [] key: key-6 payload: value-6

总结：找到index的offset，然后获得position，再去log文件中查找对应的position的相关数据。