分布式——吞吐量巨强、Hbase的承载者 LSMT

TechFlow

于 2020-03-21 09:14:47 发布

阅读量416

点赞数 1

分类专栏：大数据文章标签： hbase 布隆过滤器 bloom filter LSMT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TechFlow/article/details/105003744

版权

本文始发于个人公众号：TechFlow，原创不易，求个关注

今天是分布式系统的第九篇文章。

今天给大家分享的内容是LSM树，它的英文是Log-structed Merge-tree。看着有些发怵，但其实它的原理不难，和B树相比简直算是小儿科了。

并且这也是一个非常经典的数据结构，并且在大数据系统当中有非常广泛的应用。有许多耳熟能详的经典系统，底层就是基于LSM树实现的。因此，今天就和大家一起来深入学习一下它的原理。

背景知识

首先，我们先从背景知识开始。我们之前介绍B+树的时候说过，B+树和B树最大的不同就是将所有的数据都放在了叶子节点。从而优化了我们批量插入以及批量查询的效率，而优化的核心逻辑就是因为无论是什么存储介质，顺序存储的效率一定要比随机存储更高，并且高的还不是一点半点。这个已经算是老生常谈了，如果我没记错的话，这已经是我第三次在文章当中提到这一点了。

我最近看到了一张图，很好地阐述了随机读取和顺序读取两者的效率差，我们来看下面这张图。其中绿色的部分表示硬盘顺序读取的最大速度，而红色表示随机读取时的速度。

我们看下纵坐标就知道，这两者差的不是一点半点，已经有数量级的差距了。而且还不止是一个数量级，至少相差了三个数量级，显然这是非常恐怖的。另外，这个差距并不只是在传统的机械硬盘上存在，即使是现在比较先进的SSD固态硬盘上，也一样存在。也就是说这个差距是介质无关的。

直观优化

既然随机读取和顺序读取的效率差了这么多，不由得不让人心动。如果能够发明一个数据结构可以充分地利用上这一点，那么我们的系统对数据的吞吐能力一定可以再上一个台阶。对于许多科技公司而言，尤其是大数据公司，因为数据量带来的机器开销的费用占据了日常支出的大头。如果能够很好地解决这个问题，显然可以节约大量的资源

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分布式——吞吐量巨强、Hbase的承载者 LSMT

本文始发于个人公众号：TechFlow，原创不易，求个关注今天是分布式系统的第九篇文章。今天给大家分享的内容是LSM树，它的英文是Log-structed Merge-tree。看着有些发怵，但其实它的原理不难，和B树相比简直算是小儿科了。并且这也是一个非常经典的数据结构，并且在大数据系统当中有非常广泛的应用。有许多耳熟能详的经典系统，底层就是基于LSM树实现的。因此，今天就和大家一起来深...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。