HBase
文章平均质量分 78
heqianqiann
每一个不曾起舞的日子都是对生命的辜负
展开
-
HBase 初学HBase的几个问题
什么是HBase何时用HBase和HivePig的区别HBase的结构1表行列和单元格2自动分区3HBase存储格式 WAL预写式日志5HBase系统架构为何HBase速度很快HBase常用操作1. 什么是HBase?HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉价的PC服务器上搭建起大规模结构化的转载 2017-12-11 20:16:47 · 672 阅读 · 0 评论 -
HBase 索引表结构
1. 索引表的结构在HBase中,表格的Rowkey按照字典排序,Region按照RowKey设置split point进行shard,通过这种方式实现的全局、分布式索引,成为了其成功的最大的砝码每一个索引建立一个表,然后依靠表的row key来实现范围检索。row key在HBase中是以B+ tree结构化有序存储的,所以scan起来会比较效率。 单表以row key存储索引,column v转载 2017-12-26 14:08:20 · 10665 阅读 · 0 评论 -
HBase LSM树存储引擎
核心思想是放弃部分读性能,提高写性能。LSM Tree(Log-Structured Merge Tree)日志结构合并树,核心思路就是假设内存足够大,不需要每次有数据更新就必须把数据写入到磁盘中,可以先把最新的数据驻留在磁盘中,等到积累到最后多之后,再使用归并排序的方式将内存内的数据合并追加到磁盘队尾(因为所有待排序的树都是有序的,可以通过合并排序的方式快速合并到一起)。日志结构的合并树(LSM-转载 2017-12-26 18:28:28 · 917 阅读 · 0 评论 -
HBase 行键rowkey设计原则
1.行键应该尽可能短行键存在于HBase中的每一个单元格中。如果行键越长,用于存储单元格的I/O开销就会越大。通常我们采用MD5加密的定长键来代替行键2.对于组合行键 排序顺序应该取决于访问模式如果是一个以主机名和事件类型存储的日志数据库,可能的键值选取方法有以下几种:[主机名][事件类型][时间戳] :适用于访问模式使用主机名和事件类型查询日志的方式。[事件类型][时间戳][主机名] : 适用原创 2017-12-27 17:17:42 · 2020 阅读 · 0 评论 -
HBase 删除数据过程分析
HBase的删除过程分为单行删除、多行删除和原子性操作1.单行删除不会立即删除,而是先在指定存储单元上标记删除,等到下一次region合并或者分裂的时候才会移除数据删除行的时候,可以指定列簇、列或者列中具体数据进行删除。没有任何指定的情况下会删除整行数据。如果使用 addFamily 函数,则会删除改行中的指定列簇中的所有数据。如果使用 addColumns 函数,则会删除该行中的指定列中所有的数据原创 2017-12-27 17:27:05 · 3462 阅读 · 0 评论 -
HBase Region划分策略总结
1.Region切分触发策略在最新稳定版(1.2.6)中,HBase已经有多达6种切分触发策略。当然,每种触发策略都有各自的适用场景,用户可以根据业务在表级别选择不同的切分触发策略。常见的切分策略如下图ConstantSizeRegionSplitPolicy:0.94版本前默认切分策略这是最容易理解但也最容易产生误解的切分策略,从字面意思来看,当region大小大于某个阈值(hbase.hre原创 2017-12-27 18:41:30 · 4333 阅读 · 1 评论