大数据基础之HBase学习

最新推荐文章于 2024-09-16 11:16:36 发布

徐xyy

最新推荐文章于 2024-09-16 11:16:36 发布

阅读量609

点赞数

分类专栏：大数据文章标签：大数据 hbase

本文链接：https://blog.csdn.net/Princess1012/article/details/52830972

版权

本文介绍了HBase的基本原理，包括其分布式存储系统的特性，以及HBase的架构组件，如Client、Zookeeper、HMaster和HRegionServer。接着详细描述了HBase的环境搭建过程，包括系统配置、版本选择、安装步骤和配置文件设置。最后，通过简单的编程实例展示了如何使用Java进行HBase的建表、查询、插入和删除操作。

摘要由CSDN通过智能技术生成

这周主要学习了Hbase的原理以及Hbase的编程实例，还有MapReduce实例，这篇文章主要简单的介绍HBase的原理，详细的介绍环境的搭建以及编程的实例。MapReduce实例开发会作为单独的一篇文章来写。

一、HBase原理

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价的PC Server上搭建起大规模集群，它是一个可以随机访问的存储和检索数据的平台。它不介意数据类型，允许动态的，灵活的数据类型。以上关于HBase的定义来自学习的课件中。以下关于自己的理解，HBase为一个可分布式的存储系统，弥补了HDFS不可随机访问的不足，数据是以Byte表的形式存储，所以不介意数据的类型，即任何数据类型均可存储。它的架构图如下所示：

以上为HBase的一个架构图，包含client、Zookeeper、HMaster、HRegionServer等

Client：包含HBase的访问接口，RegionServer等信息

RegionServer:为HBase中一个较为核心的模块，主要负责相应用户的IO请求，如HDFS中文件读写，管理多个Region对象

HRegion：HBase内包含多个HRegion，相当于HBase中的一个单位

Store：封装了HFile，存储于HDFS中

MemStore：内存中的数据缓存，类似Oracle的Buffer Cache

HMaster：为RegionServer分配region，负责RegionServer的负载均衡

Zookeeper：主要负责管理集群，存储所有Region的寻址入口，实时监控RegionServer的状态

HBase的逻辑模型如下图所示，有行和列组成，列划分为若干个列族，一般情况下用一个列族，多行列，行健（rowkey）为表的主键，可以通过rowkey来检索数据。时间戳为存储数据的时间，行和列为一个单元（cell），一般每个cell都保存同一份数据的多个版本，因此时间戳可以确定数据的版本。rowkey一般是通过字典排序，采用倒叙的方式。因此最前面的为最新的数据。