HBase(一)介绍

Allen019

已于 2024-08-21 16:34:18 修改

阅读量1.4k

点赞数 37

分类专栏： # habse 文章标签： hbase 数据库大数据

于 2024-08-21 16:15:36 首次发布

本文链接：https://blog.csdn.net/sadfasdfsafadsa/article/details/141369867

版权

habse 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

HBase原本是由Yahoo！公司开发后贡献给了Apache的一套开源的、基于Hadoop的、HBase是一个分布式的非关系型数据库，基于Hadoop分布式文件系统（HDFS）构建，主要用于海量数据的存储和处理

如果需要对大量数据进行随机且实时读写，那么可以考虑用HBase，数据可修改

HBase能够管理非常大的表：billions of rows * millions of columns数十亿行 x 数百万列，Mysql上亿数据很不错了，不符合三范式

HBase是仿照Google的Big Table来进行实现的，因此，Hbase和BigTable的原理几乎一致，只有实现语言不同。HBase是使用Java语言实现的，BigTable使用的是C语言实现的。HBase最终将数据落地到HDFS上

列式存储HBase是根据列族来存储数据的。列族下面可以有非常多的列，在创建表的时候列族就必须指定。列存储： HBase是面向列的数据库，它将数据存储在表中的列族中。每个列族可以包含多个列，这样可以方便地存储和检索具有不同结构的数据。HBase的列存储特性使得可以高效地读取和写入大量数据。

数据按列存储，就是每列数据是存储在一起的。按列存储有好处呢？

1.可以节约存储空间，只存储有用的内容，按行存储需要为null值进行处理，而按列存储就不需要了。

2.每一列的类型是一致的，在数据落到磁盘时，可以获得更好的数据压缩效率。

3.大多数情况下，我们再查询的时候是不需要查询出整张表的所有列的，只会用到部分列，但是因为按行存储的方式，每次都必须先将所有字段查询出来，在过滤出我们需要的字段。但是按列存储就不一样了，就像是吃自助餐，按需查询，需要什么就只查询什么，很明显也是可以减少磁盘IO

HBase的列具有灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的。

Hbase提供了2个大版本，并且2个版本都在同时更新。其中，Hadoop3.1.3版本支持的是HBase2.2.X及以上的版本

HBase作为非关系型数据库，不支持标准的SQL语法，提供了一套全新的命令

HBase能够存储稀疏类型的数据，也因此HBase能够存储结构化（数据本身有结构，经过解析之后，能够用传统数据库中的一个或几个表来存储）和半结构化数据（数据本身有结构，但是解析之后无法用传统数据库中的表来存储）

HBase本身作为数据库，提供了完整的增删改查的功能。HBase基于HDFS来进行存储，HDFS的特点是允许一次写入多次读取，不允许修改而允许追加写入，但HBase提供了”改“功能，HBase如何实现”改“功能的？HBase实际上并没有去修改写入的数据，而是在文件末尾去追加数据，HBase会对写入的每条数据自动添加一个时间戳，当用户获取数据的时候，HBase自动返回最新的数据，那么从用户角度来看，就是发生了数据的修改。

HBase是基于HDFS的，而HDFS是不能够修改数据的，所以HBase也是不能修改数据的。HBase使用时间戳实现修改功能。取数据的时候取最新时间戳的数据，取出来的就是最新的数据。

在HBase中，数据的每一个时间戳称之为一个版本

如果要锁定唯一的一条数据，那么需要通过行键+列族+列+时间戳这四个维度来锁定，这种结构称为一个cell（单元格）

HBase中的表在创建的时候，如果不指定，那么只对外提供一个版本的数据

如果建好表之后再修改可以获取的版本，那么已经添加的数据不起作用

即使表允许对外获取多个版本的数据，在获取的时候如果不指定，依然只获取一个版本的数据

HBase 依赖于 zookeeper 实现高性能协调。 zookeeper 内置到 HBase 中，但如果您正在运行生产集群，那么建议您配备一个与 HBase 集成的专用 ZooKeeper 集群。

优点：

HBase 底层基于HDFS存储，高可用、高扩展、强一致性，支持上亿级别数据

10亿数据性能测试结果

1. 写性能：集群吞吐量最大可以达到70000+ ops/sec，延迟在几个毫秒左右。网络带宽是主要瓶颈，如果将千兆网卡换成万兆网卡，吞吐量还可以继续增加，甚至达到目前吞吐量的两倍。

2. 读性能：很多人对HBase的印象可能都是写性能很好、读性能很差，但实际上HBase的读性能远远超过大家的预期。集群吞吐量最大可以达到26000+，单台吞吐量可以达到8000+左右，延迟在几毫秒～20毫秒左右。IO和CPU是主要瓶颈。

3. Range 扫描性能：集群吞吐量最大可以达到14000左右，系统平均延迟在几毫秒～60毫秒之间（线程数越多，延迟越大）；其中IO和网络带宽是主要瓶颈。

总结
什么是 HBase？
HBase 是一个在 Hadoop Distributed File System (HDFS) 上运行的列式存储非关系数据库管理系统。 HBase 提供了存储稀疏数据集的容错方式，这类数据集在许多大数据用例中十分常见。它非常适合实时数据处理或者对大量数据的随机读取/写入访问。

与关系数据库系统不同，HBase 不支持 SQL 一类的结构化查询语言；事实上，HBase 根本不是关系数据存储库。 HBase 应用程序以 Java™ 编写，更像是一款典型的 Apache MapReduce 应用程序。 HBase 确实支持以 Apache Avro、REST 和 Thrift 编写应用程序。

HBase 系统设计为线性扩展。它包括一系列由行和列组成的标准表，更像是传统数据库。每个表必须有一个定义为主键的元素，且所有对 HBase 表的访问尝试都必须使用此主键。

Avro 作为组件，支持一系列丰富的原始数据类型（包括数字、二进制数据和字符串）以及多种复杂类型（包括数组、映射、枚举和记录）。对于数据，也可以定义排序顺序。

HBase 依赖于 zookeeper 实现高性能协调。 zookeeper 内置到 HBase 中，但如果您正在运行生产集群，那么建议您配备一个与 HBase 集成的专用 ZooKeeper 集群。

HBase 非常适合与 Hive 结合使用，后者是用于大数据批处理的查询引擎，以支持容错性大数据应用程序。

Hive和Hbase的比较
1、Hive本质上是一个用于进行数据仓库管理的工具，在实际过程中经常用于对数据进行分析和清洗，提供了相对标准的SQL结构，底层会将SQL转化为MapReduce来执行，因此Hive的效率相对较低，更适合于离线开发的场景。Hive一般针对历史数据进行分析，一般只提供增加和查询的能力，一般不会提供修改和删除的功能

2、HBase本质上是一个非关系型数据库，在实际过程中，用于存储数据。因为HBase的读写效率较高，吞吐量较大，因此一般使用HBase来存储实时的数据，最终数据会落地到HDFS上。HBase作为数据库，提供了完整的增删改查的能力，但是相对而言，HBase的事务能力较弱。HBase不支持SQL，提供了一套完整的命令

3、总结：Hive强调的是分析能力，但是HBase强调的是存储能力，相同的地方在于两者都是利用HDFS来存储数据