HBase数据结构

先观察表中数据
在这里插入图片描述
HBase中存储数据时HBASE行键是域名倒置的命名方式,时间戳则为当前时间,有不用的时间戳,在冒号之前就是列簇的名字,但是并不是每行数据的时间戳是相同的。这里体现出HBase在存储数据的时候可以做到不存储某个属性的数据(在关系型数据中创建表之后,即使该属性没有数据也需要显示为null),这就是HBase表存储稀疏的特点。

HBase数据结构设计到四个名词:
RowKeyColumn FamilyCellTimeStamps

Rowkey(行键)
行键是用来检索记录的主键
与NoSql数据库一样,Row Key就是用来检索记录的主键,访问HBase中的行,只有三种方式:

  1. 通过单个RowKey访问。
  2. 通过Rowkey的range(正则表达式)
  3. 全表扫描

**==Rowkey可以是任意字符串(最大长度为64kb),在HBase内部,Rowkey保存为字节数组。存储时,数据按照Rowkey的字节顺序(byte
order)排序存储。设计Rowkey时,要充分考虑排序存储这个特性,将经常一起读取的行(IO特性相似的行)存储到一起(位置相关性)。 **

Column Family(列簇)
HBase表中的每个列,都归属于某个列簇,其实就是列的集合。列簇是表的Schema的一部分(列不是),必须在使用表之前定义。列名都已列簇作为前缀。

Cell(无类型字节码)
由rowkey,column Family,columb(值),bersion组成的唯一单元,值得注意是这里的Cell并不单单指当前列簇的值,而是指好几个属性加在一起所表示唯一的值。Cell中的数据是没有类型的,都是字节码形式存储。

HBase和关系型数据库区别:
数据库类型:HBase中的数据都是字符串类型(String)数据。
操作:HBase只有普通的增删改查等操作,没有表之前的关联查询。
存储模式:HBase是基于列式存储模式,二RDBMS是基于行式存储。
应用场景:HBase适合存储大量数据,查询效率极高。

TimeStamps
HBase通过rowkey和columns确定的为一个存储单元成为一个Cell。每个Cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是64位整数。时间戳可以由HBase(在数据写入时)自动赋值。时间戳也可以有客户显示赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。每个Cell中,不同版本的数据按照时间倒序排序,即最新的数据排在前面。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值