先观察表中数据:
HBase中存储数据时HBASE行键是域名倒置的命名方式,时间戳则为当前时间,有不用的时间戳,在冒号之前就是列簇的名字,但是并不是每行数据的时间戳是相同的。这里体现出HBase在存储数据的时候可以做到不存储某个属性的数据(在关系型数据中创建表之后,即使该属性没有数据也需要显示为null),这就是HBase表存储稀疏的特点。
HBase数据结构设计到四个名词:
RowKey,Column Family,Cell,TimeStamps。
Rowkey(行键)
行键是用来检索记录的主键
与NoSql数据库一样,Row Key就是用来检索记录的主键,访问HBase中的行,只有三种方式:
- 通过单个RowKey访问。
- 通过Rowkey的range(正则表达式)
- 全表扫描
**==Rowkey可以是任意字符串(最大长度为64kb),在HBase内部,Rowkey保存为字节数组。存储时,数据按照Rowkey的字节顺序(byte
order)排序存储。设计Rowkey时,要充分考虑排序存储这个特性,将经常一起读取的行(IO特性相似的行)存储到一起(位置相关性)。 **
Column Family(列簇)
HBase表中的每个列,都归属于某个列簇,其实就是列的集合。列簇是表的Schema的一部分(列不是),必须在使用表之前定义。列名都已列簇作为前缀。
Cell(无类型字节码)
由rowkey,column Family,columb(值),bersion组成的唯一单元,值得注意是这里的Cell并不单单指当前列簇的值,而是指好几个属性加在一起所表示唯一的值。Cell中的数据是没有类型的,都是字节码形式存储。
HBase和关系型数据库区别:
数据库类型:HBase中的数据都是字符串类型(String)数据。
操作:HBase只有普通的增删改查等操作,没有表之前的关联查询。
存储模式:HBase是基于列式存储模式,二RDBMS是基于行式存储。
应用场景:HBase适合存储大量数据,查询效率极高。
TimeStamps
HBase通过rowkey和columns确定的为一个存储单元成为一个Cell。每个Cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是64位整数。时间戳可以由HBase(在数据写入时)自动赋值。时间戳也可以有客户显示赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。每个Cell中,不同版本的数据按照时间倒序排序,即最新的数据排在前面。