hbase基本概念及使用注意事项

hbase基本概念及使用注意事项

hbase的特点

  • 多维:key是复合的,列族,列,rowkey,时间戳,操作类型构成物理存储的key
  • 稀疏:同行下不同的列可以为空,不填充null,由于列可以无限扩展这会导致空间浪费
  • 排序:rowkey->column(列族+列)->timestamp
  • 分布式:依托于hadoop,一个表可以有多个region,每个region可以存在不同的region server上,region server对应于hadoop的dataNode

hbase的设计目标

hbase的设计目标是成为HTAP(Hybrid Transactional and Analytical Processing )型数据库。
hbase是列式存储数据库,这个是根据物理视图来看,hbase底层是按照每个列来存储数据,一般我们使用hbase shell可以看到结构
rowkey->列族
       |-列
       |-value,时间戳
这是逻辑视图。

hbase基本概念

namespace:相当于库名
table:表名,一个表由多个region组成
region:一个表的数据分片,可以预分区也可以自行分裂,根据配置触发region分裂
region server:一个数据节点,下面包含,包含多个表,多个region,一个HLog,多个bulkcache。
bulkcache:读取层的缓存,多个region会共用这部分的内存。
HLog:一个region server包含一个HLog,代表hdfs存储,数据顺序写入数据,缓存的地方
strore:一个列族对应一个store,一个region有多个store
memstore:一个store包含一个memstore和多个storeFile,默认128m,写入层的缓存
stroreFile:一个storeFile其实是对hdfs的HFile的包装。store默认配置是3个HFile文件,数据文件多了会发生合并。
rowkey:数据行的标识。数据查询时会根据rowkey去决定在哪个region去查询数据。
metaCache:客户端缓存,会缓存rowKey在哪个region的元信息。
hbase:meta:这个表存储了集群中rowkey在哪个region的元信息,客户端缓存拿不到的rowkey再去这个表获取,首次读取需要确定hbase:meta所在的region server,从zookeeper的/hbase/meta-region-server这个ZNode。

hbase读写注意事项

  • 由于hbase是顺序的写HLog所以,写性能非常好,但是如果数据量很大,就需要预分区region,并发的将数据写到不同的region上。写数据可以通过put操作,写一条数据就同步到集群,这种方式对于大数据量,会较慢,可以通过客户端缓存,达到一定的数据量再批量提交。
  • hbase的读性能相较于写性能会差点,因为读数据的过程较为复杂,可能涉及多个region的查询后的合并,还有可能跨节点查询数据。读数据的方式分为getscan,前者是通过查询匹配指定的rowkey,后者是范围内扫描表数据,如果数据较为连续且大批量的读取,使用scan的方式是不错的选择,如果数据较为分散,在表数据量很大的时候建议采用批量get的查询方式。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值