一、优化策略:
导致HBase性能下降的因素:
Jvm内存分配与GC回收策略
与HBase运行机制相关的部分配置不合理
表结构设计及用户使用方式不合理
二、HBase概念:
1、HBase数据存储过程:
HBase写入时当MEMStore达到一定的大小会flush到磁盘保存成HFile,当HFile小文件太多会执行compact操作进行合并。
对HBase来说,每个Store仅包含一个HFile文件时,查询效率才是最大的。因为HFile文件太多的话,需要的寻址时间就会越长。因此HBase会通过合并已有的HFile,减少每次读取数据时的磁盘询道时间。合并的过程称为compact,但是当compact期间,可能会阻塞数据的写入和读取。
当Region的大小达到某一阈值,会执行split操作。对region进行分割,分配给不同的RegionServer管理。可能会导致当前Region不能读取、不能写入。
2、compact分两种:
minor compact:选取一些小的、相邻的StoreFile将它们合并成一个更大的StoreFile。
这里的StoreFile指的是HFile的一个封装,等同于HFile。minor compact的关键是如何去选择哪些文件需要合并?一次合并几个文件?
major compact:将所有的StoreFile合并成一个StoreFile,合并过程中清理无意义数据:被删除的数据、TTL过期数据、版本号超过设定版本号的数据。
注意:我们平时删除数据时,只是给数据加了一个标识,只有执行major compact时才会真正删除。
split:当一个region达到一定的大小就会自动split成两个region。
3、有三种情况会触发compact检查:
MeMStore被flush到磁盘;
用户执行shell命令compact、major_compact或者调用了相应的API;
HBase后台线程周期性触发检查;
<