HBase面试题

Hbase 是什么?

Hbase 一个分布式的基于列式存储的数据库,基于 Hadoop 的 hdfs 存储,zookeeper 进行管理。 Hbase 适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按 一个概念去抽取的数据。 Hbase 为 null 的记录不会被存储. 基于的表包含 rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以 前的版本. hbase 是主从架构。hmaster 作为主节点,hregionserver 作为从节点。

HBase 的特点是什么?

大:一个表可以有数十亿行,上百万列; 无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表 中不同的行可以有截然不同的列; 面向列:面向列(族)的存储和权限控制,列(族)独立检索; 稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏; 数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插 入时的时间戳; 数据类型单一:Hbase 中的数据都是字符串,没有类型。

HBase 适用于怎样的情景?

半结构化或非结构化数据、记录非常稀疏、多版本数据、超大数据量,以上情况适用于 HBase

描述 HBase 的 rowKey 的设计原则?

Rowkey 长度原则 Rowkey 是一个二进制码流,Rowkey 的长度被很多开发者建议说设计在 10~100 个 字节,不过建议是越短越好,不要超过 16 个字节。 原因如下:

(1)数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 Rowkey 过长比如 100 个字节,1000 万列数据光 Rowkey 就要占用 100*1000 万=10 亿个字节,将近 1G 数 据,这会极大影响 HFile 的存储效率;

(2)MemStore 将缓存部分数据到内存,如果 Rowkey 字段过长内存的有效利用率 会降低,系统将无法缓存更多的数据,这会降低检索效率。因此 Rowkey 的字节长度越短 越好。

(3)目前操作系统是都是 64 位系统,内存 8 字节对齐。控制在 16 个字节,8 字 节的整数倍利用操作系统的最佳特性。 Rowkey 散列原则 如果 Rowkey 是按时间戳的方式递增,不要将时间放在二进制码的前面,建议将 Rowkey 的高位作为散列字段,由程序循环生成,低位放时间字段,这样将提高数据均衡分 布在每个 Regionserver 实现负载均衡的几率。如果没有散列字段,首字段直接是时间信息162 将产生所有新数据都在一个 RegionServer 上堆积的热点现象,这样在做数据检索的时候负 载将会集中在个别 RegionServer,降低查询效率。 Rowkey 唯一原则 必须在设计上保证其唯一性。

  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值