hbase原理-LSM

最新推荐文章于 2023-04-28 21:16:16 发布

大数据男

最新推荐文章于 2023-04-28 21:16:16 发布

阅读量722

点赞数

分类专栏： hadoop实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/epitomizelu/article/details/117420576

版权

hadoop实战专栏收录该内容

137 篇文章 6 订阅

订阅专栏

LSM是英文Log Structured Merge Trees的缩写，日志结构合并树，这个翻译是我自创的，不专业，但要理解LSM，这个名字中的几个关键词非常重要。

日志
合并

一，关键词一：日志

1，顺序写入

做过后台开发的都知道，日志都是以append方式写入的，日志只有写入和读取，没有更新和删除(文件删除除外)，所以日志按照顺序读写的方式，写入效率高。

LSM就是按照这种思路，写入磁盘时以append方式写入，效率高。

hbase支持更新，但更新并非是直接修改原cell内存中的值，而是直接插入一条新的记录，用时间戳作为版本号，时间戳最新的数据通常是用户关心的数据，在hbase中可以设置超过一定版本号后，将旧记录删除。

2，记录操作

hbase以键值对的方式存储数据，key由rowkey、列族、列名、时间戳(版本号)、操作方式(put/delete)合并而成，value就是对应的值。

某种程度上，存储的是操作日志，而不是直接的数据，从这里也可以看到日志的影子。

二，关键词二：合并

LSM一般都是分级存储，hbase的存储分为内存和磁盘存储，数据写入时先写入内存即memory store，当memory store写满后，会滚动生成一个新的memory store接收新的写入。旧的memory store会被flush写入磁盘文件hfile，写入的同时支持查询。

memory store的大小默认是128m，所以一个hfile在创建后写入数据后的大小是128m。因此，随着写入数据的增多，必然会创建很多hfile文件，这对写入没有什么影响，但对于查询就非常不利：可能导致同一个rowkey的数据分布在多个hfile上，在查询时需要把所有相关的hfile读入内存进行过滤，大量的磁盘io必然降低效率。

针对这个问题，lsm采取的方式是合并，hbase的lsm实现是将多个hfile采用多路归并的方式合并为一个大的文件，称之为compaction操作，但这个操作非常耗时、耗费资源，最好采用手动的方式在服务器空闲的时间执行。compation后有利于提高读取效率。

hbase的compaction分为两种：major compaction和minor compaction。

major compaction毕其功于一役，一次将所有的小hfile合并为一个大的hfile，这种方式对应用影响很大。

minor compaction通过一定的机制选取几个小的hfile合并为一个大的hfile，局部合并。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
hbase原理-LSM

LSM是英文Log Structured Merge Trees的缩写，日志结构合并树，这个翻译是我自创的，不专业，但要理解LSM，这个名字中的几个关键词非常重要。日志合并一，关键词一：日志1，顺序写入做过后台开发的都知道，日志都是以append方式写入的，日志只有写入和读取，没有更新和删除(文件删除除外)，所以日志按照顺序读写的方式，写入效率高。LSM就是按照这种思路，写入磁盘时以append方式写入，效率高。hbase支持更新，但更新并非是直接修改原cell内存中的值，而是
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据男 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。