Hbase 你必须要了解的知识

最新推荐文章于 2023-06-07 15:27:48 发布

heiyogl

最新推荐文章于 2023-06-07 15:27:48 发布

阅读量976

点赞数 2

分类专栏： BigData 文章标签： hadoop

本文链接：https://blog.csdn.net/heiyogl/article/details/104882389

版权

BigData 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

百科

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

总结起来就是：

1.hbase是bigtable的开源版本；

2.是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统；

3.它不同于关系数据库，它仅能通过主键(row key)和主键的range来检索数据；

4.仅支持单行事务；

5.主要用来存储非结构化和半结构化的松散数据。

Hbase目标在于依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

Hbase 的基本概念

Row Key（主键）

表中行记录的主键；

相当于我们常见的关系型数据库中的主键，它是唯一的；在 HBase 中这个主键可以是任意的字符串，其最大长度是64K，在内部存储中会被存储为字节数组，HBase 表中的数据是按照 RowKey 的字典序排列的。

Column Family（列族）

列族，表schema一部分，列的前缀；

由若干列构成，是表schema 的一部分，需要在创建表的时候指定好（修改列族，成本比较大，因此不建议更改）。可允许定义的列族个数最多为20多个，列族可以帮我们构建数据的语义边界，还能有助于我们设置某些特性，比如可以指定某个列族内数据的压缩形式。一个列族包含的所有列在物理存储上都是在同一个底层的存储文件当中。

访问控制、磁盘和内存的使用统计都是在列族层面进行的。实际应用中，列族上的控制权限能帮助我们管理不同类型的应用：我们允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据（甚至可能因为隐私的原因不能浏览所有数据）。

Column（列）

列，属于某个列族，可动态添加；

列的数量一般的没有强限制的，一个列族当中可以有数百万个列；

列名都以列族作为前缀。例如 courses:history，courses:math 都属于courses 这个列族。

Version Number（版本）

版本，默认是时间，降序排列；

每一列的值或是每个单元格的值都是具有版本号的，默认使用的系统当前的时间戳，精确到毫秒。

Cell（单元格）

单元格，由 row key , column , version 唯一确定，字节码；

一个单元格就是由前面说的行键、列标示、版本号唯一来确定的；其中，列标示包括列族和列名。Cell 中的数据是没有类型的，全部都是字节码；

形式如： {row key, column(=<family> + <label>), version} 唯一确定的单元。

Region（区）

1.表在行的方向上分割为多个region；

2.region按大小分割的，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region。当table中的行不断增多，就会有越来越多的region；

3.region是Hbase扩展和负载均衡的基本单元，不同的region分布到不同的regionServer；

4.region是分布式存储的最小单元，但不是存储的最小单元；

Hbase Table 中行的三种方式

1.通过单个 row key 访问；

2.通过 row key 的 range ；

3.全表扫描。

时间戳

HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。