HBase笔记（一）-入门介绍

最新推荐文章于 2022-09-06 08:53:58 发布

天高地阔

最新推荐文章于 2022-09-06 08:53:58 发布

阅读量614

点赞数

分类专栏： HBase

本文链接：https://blog.csdn.net/jichuang123/article/details/83099368

版权

HBase 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、什么是HBase

HBase（Hadoop database）是一种构建在HDFS之上的分布式、面向列的和提供高可靠性、高性能、可伸缩、实时读写的开源数据库系统，在需要实时读写、随机访问超大规模数据集时，可以使用HBase。

HBase的技术来源于Google论文”Bigtable：一个结构化数据的分布式存储系统”。HBase 是Bigtable 的开源实现，它利用Hadoop HDFS 作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据；，利用Zookeeper来协同服务。

二、HBase的特点

HBASE的特点如下：

大：一个表可以有上亿行，上百万列

面向列：面向列族的存储和权限控制，列族独立检索

稀疏：空（NULL）列不被存储，不占用存储空间，因此表可以设计的很稀疏

面向列：面向列(族)的存储和权限控制，列(族)独立检索。

无模式：每一行都有一个主键和任意多的列，列可以根据需要动态增加，同一张表中不同的行可以有截然不同的列

多版本：每个单元中的数据可以有多个版本，默认情况下，版本号自动分配，版本号是单元格插入时的时间戳

数据类型单一：HBase中的数据都是字符串，没有类型

三、HBase的优点

关系型数据库面临的问题：

面向行意味着表中的行是一行一行地进行存储，当进行查询时，将查询整个行的信息。如select username from student，虽说我们只要username这个字段，但是面向行的机制就把所有字段的信息都加载到内存当中，导致I/O效率低下。
在RDBMS中，因为事先已经定义了每个字段的类型、大小，所以即使该字段没值也将占用存储空间，导致空间利用率不高。

HBase不同于一般的关系数据库，是一个适合非结构化数据存储的数据库，基于列而不是基于行的模式，主要用来存储非结构化和半结构化的松散数据。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表连接等复杂操作)。HBase不是关系型数据库，也不支持SQL，HBase面向列是把列族存放在不同的文件当中，比如经常访问其中的一个列族A，其它列族很少访问，那么当访问A列族的时候就不需要去访问其它列族所存放的文件，可以提高I/O效率。

HBase从另一个角度处理伸缩性问题，它通过线性方式从下到上增加节点来进行扩展，与Hadoop一样HBase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

四、HBase的应用场景

HBase的数据模型比较简单，数据按照RowKey排序存放，适合HBase存储的数据，可以简单总结如下：