Java开发自学技巧！【漫画(1)

最新推荐文章于 2023-04-12 08:46:41 发布

程序员小伊

最新推荐文章于 2023-04-12 08:46:41 发布

阅读量125

点赞数

分类专栏：程序员文章标签：后端 java 面试

本文链接：https://blog.csdn.net/m0_54926105/article/details/119414381

版权

程序员专栏收录该内容

570 篇文章 6 订阅

订阅专栏

宏观架构层面利用Partition实现并行处理

Kafka中每个Topic都包含一个或多个Partition，不同Partition可位于不同节点。

同时Partition在物理上对应一个本地文件夹，每个Partition包含一个或多个Segment，每个Segment包含一个数据文件和一个与之对应的索引文件。

一方面，由于不同Partition可位于不同机器，因此可以充分利用集群优势，实现机器间的并行处理。

另一方面，由于Partition在物理上对应一个文件夹，即使多个Partition位于同一个节点，也可通过配置让同一节点上的不同Partition置于不同的磁盘上，从而实现磁盘间的并行处理，充分发挥多磁盘的优势。

具体实现层面高效使用磁盘特性和操作系统特性****将写磁盘的过程变为顺序写

Kafka的整个设计中，Partition相当于一个非常长的数组，而Broker接收到的所有消息顺序写入这个大数组中。同时Consumer通过Offset顺序消费这些数据，并且不删除已经消费的数据，从而避免了随机写磁盘的过程。

而这个删除过程，并非通过使用“读-写”模式去修改文件，而是将Partition分为多个Segment，每个Segment对应一个物理文件，通过删除整个文件的方式去删除Partition内的数据。这种方式清除旧数据的方式，也避免了对文件的随机写操作。

在存储机制上，使用了Log Structured Merge Trees(LSM) 。

**注：**Log Structured Merge Trees(LSM)，谷歌 “BigTable” 的论文，中提出，LSM是当前被用在许多产品的文件结构策略：HBase, Cassandra, LevelDB, SQLite,Kafka。LSM被设计来提供比传统的B+树或者ISAM更好的写操作吞吐量，通过消去随机的本地更新操作来达到这个目标。这个问题的本质还是磁盘随机操作慢，顺序读写快。这二种操作存在巨大的差距，无论是磁盘还是SSD，而且快至少三个数量级。

充分利用Page Cache

Page Cache，其中文名称为页高速缓冲存储器，简称页高缓。page cache的大小为一页，通常为4K。在Linux读写文件时，它用于缓存文件的逻辑内容，从而加快对磁盘上映像和数据的访问。是Linux操作系统的一个特色。

I/O Scheduler会将连续的小块写组装成大块的物理写从而提高性能
I/O Scheduler会尝试将一些写操作重新按顺序排好，从而减少磁盘头的移动时间
读操作可直接在Page Cache内进行。如果消费和生产速度相当，甚至不需要通过物理磁盘（直接通过Page Cache）交换数据

Kafka收到数据后，写磁盘时只是将数据写入Page Cache，并不保证数据一定完全写入磁盘。

如果数据消费速度与生产速度相当，甚至不需要通过物理磁盘交换数据，而是直接通过Page Cache交换数据。同时，Follower从Leader Fetch数据时，也可通过Page Cache完成。

零拷贝

最后

如果觉得本文对你有帮助的话，不妨给我点个赞，关注一下吧！

资料免费领取方式：点击这里

va-p7)**

[外链图片转存中…(img-cQbxLCy6-1628134926509)]

程序员小伊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java开发自学技巧！【漫画(1)

宏观架构层面利用Partition实现并行处理Kafka中每个Topic都包含一个或多个Partition，不同Partition可位于不同节点。同时Partition在物理上对应一个本地文件夹，每个Partition包含一个或多个Segment，每个Segment包含一个数据文件和一个与之对应的索引文件。一方面，由于不同Partition可位于不同机器，因此可以充分利用集群优势，实现机器间的并行处理。另一方面，由于Partition在物理上对应一个文件夹，即使多个Partition位于同一个节点
复制链接

扫一扫

专栏目录