再也不怕面试官问kafka为啥这么快之数据持久化

最新推荐文章于 2022-12-08 13:30:15 发布

大锤爱编程

最新推荐文章于 2022-12-08 13:30:15 发布

阅读量318

点赞数 1

分类专栏： kafka 大数据文章标签： kafka big data

本文链接：https://blog.csdn.net/alike_u/article/details/118312332

版权

大数据同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

kafka

3 篇文章 0 订阅

订阅专栏

一、前言

1.1 为啥要琢磨kafak这么快

1.2 研究kafka这么快需求准备的材料

二、kafka 数据持久化为啥快

一、前言

1.1 为啥要琢磨kafak这么快

面试常考问题，也是一个很考察对kafka理解深度的问题。坦白地说，这个问题我也回答不好。以前我的回答说白了就是网上背下来的，就是kafka是对使用系统内核直接将数据写到磁盘上，然后磁盘的顺序写速度比较快，所以刷写数据块，这个回答太糙了。

深层次的需求：为啥kafka可以这么快，究竟是咋设计的，搞来看看。不是都说从优秀源码学习编程效率高么，那就学学呗。

1.2 研究kafka这么快需求准备的材料

kafka官网
kafka源码
百度翻译或谷歌翻译

二、kafka 数据持久化为啥快

友情提示：这一段都是我根据官方文档理解的，不到位，诸位看官请移步官方文档。

kafka综合了消息队列、消息中间件、数据存储的混合产品，必然对数据持久化要求比较高。尽管如此，kafka和其他例如DFS什么的，没有开发自己的filesystem系统，而是直接使用系统原生的filesystem。这个就比较有趣了，因为我们正常使用经验来说，本地磁盘是不慢，难道就能满足kafka千万级吞吐的要求么，我也很好奇。

那这个时候，kafka的官方文档撩了一句话说，磁盘这个东西，跑得快，全看程序员的设计能力。要是设计得当的话，磁盘的速度能和网络传输一样快。为什么这么说，那是因为磁盘快不快，全看磁盘寻道的时间。这个地方太抽象，一个彩图看一下,一个灰图。这两张图片描述的都是一个东西，我这边简单用语言描述一下。

下面这个是一个磁盘的物理结构图，为啥叫磁盘，因为中间那个盘上面有磁力，所以叫磁盘，也就是非易失型存存储，也就是掉电了数据还在。看图说话，中间那个spindle叫做轴把打了一个孔的platter也就是磁盘固定住，axis就是一个活动轮子带一个杆子，杆子前面是一个磁头，就来回扫。每次，从磁盘读数据时候，这个磁头就去扫。看看这个结构是不是有点像一个什么东西，像一个唱片机。