HBase数据模型的一些概念

最新推荐文章于 2024-08-13 09:00:00 发布

weixin_34228387

最新推荐文章于 2024-08-13 09:00:00 发布

阅读量274

点赞数

文章标签：大数据 java

原文链接：https://yq.aliyun.com/articles/240680

版权

首先来先理解一个概念：HBase是一种列式存储的分布式数据库。

表

在HBase中数据以表的形式存储。使用表的主要原因是把某些列组织起来一起访问，同一个表中的数据通常是相关的，通过列族进一步把一些列组织起来一起访问。用户可以通过命令行或者Java API来创建表。表明通常使用Java Stirng 类型或者byte数组表示，表名作为HDFS存储路径的一部分来使用，因此必须要符合文件名规范，所以构成表名的字符是有限制的。可以直接查看底层存储系统，在HDFS中可以看到每个表的表名都作为独立的目录结构，在某些情况下，用户可能需要查看这部分信息。

虽然理论上HBase的表是由行和列组成的，但是从物理结构上看，表存储在不同的分区，即不同的Region。每个Region只在一个RegionServer中提供服务，而Region直接向客户端提供存储和读取服务。

行健

RowKey按照字典排序由低到高存储在表中，在Hbase中，RowKey是唯一的索引；

为了高效检索数据，应仔细设计Rowkey以获得最高的查询性能：首先Rowkey被冗余存储，所以不宜过长，过长的Rowkey会占用大量的空间同时会降低检索效率；其次Rowkey应该尽量分布均匀，这样不会产生热点现象；最后是RowKey唯一原则，必须在设计上保证它的唯一性；

列族

HBase中的列族是一些列的集合。一个列族中的所有列成员有着相同的前缀。列使用Column:Qualifier来区分列；

在创建表的时候，至少要指定一个列族，新的列族可以随后按需，动态地加入，但是修改列族要先停用表。应该将经常一起查询的列放在一个列族中，合理划分列族将减少查询时加载到缓存的数据，提高查询的效率，但是也不要有太多的列族，因为跨列族访问时非常低效的。

单元格

HBase中的单元格是由行健，列族，列，时间戳唯一确定。单元格内容是不可分割的字节数组。每个单元格都保存着同一份数据的多个版本，不同时间版本的数据按照时间顺序倒序排列，最新时间的数据排在最前面，时间戳是64为的整数，可以由客户端在写入数据时候赋值，也可以由RegionServer自动赋值。

weixin_34228387

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HBase数据模型的一些概念

首先来先理解一个概念：HBase是一种列式存储的分布式数据库。表在HBase中数据以表的形式存储。使用表的主要原因是把某些列组织起来一起访问，同一个表中的数据通常是相关的，通过列族进一步把一些列组织起来一起访问。用户可以通过命令行或者Java API来创建表。表明通常使用Java Stirng 类型或者byte数组表示，表...
复制链接

扫一扫