hbase介绍
在hbase中:
- 表的每一行都按照RowKey的字典序排序存储
- 表的数据按照RowKey区间进行分割存储成多个region
所以hbase主要适用于这两种场景 - 基于rowkey的单行快速随机读写
- 基于rowkey前缀的范围搜索
如果使用非rowkey字段查询,会进行全表扫描。所以要构建二级索引,满足秒级相应的业务需求.
二级索引方案
基于Coprocessor
基于Coprocessor开发自定义数据处理逻辑,通过双写策略,同步二级索引表
Apache Phoenix开源方案
通过sql语法创建管理二级索引,使用简便.
Phoenix二级索引特点:
Covered Indexes(覆盖索引) :把关注的数据字段也附在索引表上,只需要通过索引表就能返回所要查询的数据(列), 所以索引的列必须包含所需查询的列(SELECT的列和WHRER的列)。
Functional indexes(函数索引): 索引不局限于列,支持任意的表达式来创建索引。
Global indexes(全局索引):适用于读多写少场景。通过维护全局索引表,所有的更新和写操作都会引起索引的更新,写入性能受到影响。 在读数据时,Phoenix SQL会基于索引字段,执行快速查询。
Local indexes(本地索引):适用于写多读少场景。 在数据写入时,索引数据和表数据都会存储在本地。在数据读取时, 由于无法预先确定region的位置,所以在读取数据时需要检查每个region(以找到索引数据),会带来一定性能(网络)开销。
参考资料
https://zhuanlan.zhihu.com/p/43972378