hbase原理-LSM

LSM是英文Log Structured Merge Trees的缩写,日志结构合并树,这个翻译是我自创的,不专业,但要理解LSM,这个名字中的几个关键词非常重要。

  • 日志

  • 合并

一,关键词一:日志

1,顺序写入

做过后台开发的都知道,日志都是以append方式写入的,日志只有写入和读取,没有更新和删除(文件删除除外),所以日志按照顺序读写的方式,写入效率高。

LSM就是按照这种思路,写入磁盘时以append方式写入,效率高。

hbase支持更新,但更新并非是直接修改原cell内存中的值,而是直接插入一条新的记录,用时间戳作为版本号,时间戳最新的数据通常是用户关心的数据,在hbase中可以设置超过一定版本号后,将旧记录删除。

2,记录操作

hbase以键值对的方式存储数据,key由rowkey、列族、列名、时间戳(版本号)、操作方式(put/delete)合并而成,value就是对应的值。

某种程度上,存储的是操作日志,而不是直接的数据,从这里也可以看到日志的影子。

二,关键词二:合并

LSM一般都是分级存储,hbase的存储分为内存和磁盘存储,数据写入时先写入内存即memory store,当memory store写满后,会滚动生成一个新的memory store接收新的写入。旧的memory store会被flush写入磁盘文件hfile,写入的同时支持查询。

memory store的大小默认是128m,所以一个hfile在创建后写入数据后的大小是128m。因此,随着写入数据的增多,必然会创建很多hfile文件,这对写入没有什么影响,但对于查询就非常不利:可能导致同一个rowkey的数据分布在多个hfile上,在查询时需要把所有相关的hfile读入内存进行过滤,大量的磁盘io必然降低效率。

针对这个问题,lsm采取的方式是合并,hbase的lsm实现是将多个hfile采用多路归并的方式合并为一个大的文件,称之为compaction操作,但这个操作非常耗时、耗费资源,最好采用手动的方式在服务器空闲的时间执行。compation后有利于提高读取效率。

hbase的compaction分为两种:major compaction和minor compaction。

major compaction毕其功于一役,一次将所有的小hfile合并为一个大的hfile,这种方式对应用影响很大。

minor compaction通过一定的机制选取几个小的hfile合并为一个大的hfile,局部合并。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据男

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值