Hbase1.1：HBase官网、HBase定义、HBase结构、HBase依赖框架、HBase整合框架

郝开

已于 2023-04-18 21:16:35 修改

阅读量627

点赞数

分类专栏： HBase 文章标签： hbase hadoop 大数据

于 2023-04-17 16:01:40 首次发布

本文链接：https://blog.csdn.net/qq_41929714/article/details/130201461

版权

HBase 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

HBase是一个基于Hadoop和HDFS的分布式NoSQL数据库，专注于大数据的随机读写。它模仿Google的Bigtable，提供大规模表格存储，支持数十亿行和数百万列。HBase与Phoenix整合实现了SQL查询，而与Hive集成则用于数据仓库分析。Phoenix提供低延迟的OLTP和SQL支持，而Hive则用于批处理分析。

摘要由CSDN通过智能技术生成

HBase官网

Hbase官网地址

HBase是Hadoop database，一个分布式、可扩展的大数据存储。

当您需要对大数据进行随机、实时读/写访问时，请使用Apache HBase。这个项目的目标是在商用硬件集群上托管非常大的表——数十亿行X数百万列。Apache HBase是一个开源的、分布式的、版本化的、非关系数据库，模仿Google的Bigtable:结构化数据的分布式存储系统正如Bigtable利用Google文件系统提供的分布式数据存储一样，Apache HBase在Hadoop和HDFS的基础上提供了类似Bigtable的功能。

HBase特点：大

在这里插入图片描述
大。当你需要随机、随时的读取大数据时候，据可以用。
那么可以多大？

官网原话：数十亿行X数百万列(billions of rows X millions of columns)。

HBase定义

HBase是以hdfs为数据存储的，一种分布式、可扩展的NoSQL数据库（NoSQL数据库是以KV形式存储，根据key读取数据更快，同时没有关系型数据库中数据表行与列的关系，操作起来更加方便）。

HBase不是一个单词，而是合起来的简称，base指database，H可以理解为hadoop，或者是hdfs都可以。

HBase结构

请添加图片描述

HBase依赖框架

可以不理解底层实现，能启动部署即可

hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop实现了一个分布式文件系统（ Distributed File System）。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

HBase整合框架

根据自己的想要的效果进行框架整合
Phoenix：读写数据
Hive：分析数据

Phoenix

Phoenix俗称Hbase的皮肤，有了Phoenix操作起Hbase非常简单丝滑

Apache Phoenix让Hadoop中支持低延迟OLTP联机事务处理和业务操作分析，其主要功能和作用有：

提供标准的SQL以及完备的ACID事务支持；
通过利用HBase作为存储，让NoSQL数据库具备通过有模式的方式读取数据，可以使用SQL语句来操作HBase，例如创建表，以及增删改查数据；
Phoenix通过协处理器在服务器端执行操作，最小化客户机/服务器数据传输；
Phoenix可以很好地与其他的Hadoop组件整合在一起，例如：Spark、Hive、Flume以及MapReduce
Phoenix只是在HBase之上构建了SQL查询引擎，Phoenix可以使用SQL快速查收HBase中的数据，但其数据操作底层必须符合HBase的存储结构，HBase结合Phoenix可以实现海量数据的快速随机读写。

Hive

Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：

可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。

而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的工具进行数据提取转化加载，用来存储、查询和分析存储在Hadoop中的大规模数据集，并支持UDF（User-Defined Function）、UDAF(User-Defined AggregateFunction)和UDTF（User-Defined Table-Generating Function），也可以实现对map和reduce函数的定制，为数据操作提供了良好的伸缩性和可扩展性。

hive不适合用于联机(online)事务处理，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。hive的特点包括：可伸缩（在Hadoop的集群上动态添加设备）、可扩展、容错、输入格式的松散耦合。