Hbase 数据库

最新推荐文章于 2024-07-27 19:23:51 发布

莹火中烧

最新推荐文章于 2024-07-27 19:23:51 发布

阅读量653

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/lyy_5201314/article/details/110006080

版权

本文详细介绍了HBase，一个基于Hadoop的高可靠性、高性能的分布式存储系统。HBase利用HDFS作为底层存储，MapReduce提供计算能力。文章讨论了HBase的核心概念，包括行键、列族、时间戳，以及关键流程，如Region的定位和管理。此外，还涵盖了HBase的安装和配置过程。

摘要由CSDN通过智能技术生成

1.1HBase与Hadoop之间的关系

Hadoop框架中的HDFS分布式文件系统为HBase提供了可靠的底层存储支持。
Hadoop框架中的MapReduce为HBase提供了高性能的计算能力。

1.2 HBase概述

1.HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，因此可以容错地存储海量稀疏的数据。HBase是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的BigTable建模，典型的key/value系统，实现的编程语言为 Java。

2.HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

1.3 HBase核心概念

HBase 是一个稀疏、多维度、有序的映射表。
这张表中每个单元是通过由行键、列族、列限定符和时间戳组成的索引来标识的。
每个单元的值是一个未经解释的二进制数组(byte[])，没有数据类型。当用户在表中存储数据时，每一行都有一个唯一的行键和任意多的列。
表的每一行由一个或多个列族组成，一个列族中可以包含任意多个列。在同一个表模式下，每行所包含的列族是相同的，也就是说，列族的个数与名称都是相同的，但是每一行中的每个列族中列的个数可以不同，如图所示。
在这里插入图片描述

在这里插入图片描述

1.Row key（行键）

与nosql数据库们一样,row key是用来检索记录的主键。访问HBASE table中的行，只有三种方式：
（1）通过单个row key访问
（2）通过row key的range（正则）
（3）全表扫描
Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为10-100bytes)，在HBASE内部，row key保存为字节数组。存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)