大数据基础之HBase学习

本文介绍了HBase的基本原理,包括其分布式存储系统的特性,以及HBase的架构组件,如Client、Zookeeper、HMaster和HRegionServer。接着详细描述了HBase的环境搭建过程,包括系统配置、版本选择、安装步骤和配置文件设置。最后,通过简单的编程实例展示了如何使用Java进行HBase的建表、查询、插入和删除操作。
摘要由CSDN通过智能技术生成

这周主要学习了Hbase的原理以及Hbase的编程实例,还有MapReduce实例,这篇文章主要简单的介绍HBase的原理,详细的介绍环境的搭建以及编程的实例。MapReduce实例开发会作为单独的一篇文章来写。

一、HBase原理

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价的PC Server上搭建起大规模集群,它是一个可以随机访问的存储和检索数据的平台。它不介意数据类型,允许动态的,灵活的数据类型。以上关于HBase的定义来自学习的课件中。以下关于自己的理解,HBase为一个可分布式的存储系统,弥补了HDFS不可随机访问的不足,数据是以Byte表的形式存储,所以不介意数据的类型,即任何数据类型均可存储。它的架构图如下所示:


以上为HBase的一个架构图,包含client、Zookeeper、HMaster、HRegionServer等

Client:包含HBase的访问接口,RegionServer等信息

RegionServer:为HBase中一个较为核心的模块,主要负责相应用户的IO请求,如HDFS中文件读写,管理多个Region对象

HRegion:HBase内包含多个HRegion,相当于HBase中的一个单位

Store:封装了HFile,存储于HDFS中

MemStore:内存中的数据缓存,类似Oracle的Buffer Cache

HMaster:为RegionServer分配region,负责RegionServer的负载均衡

Zookeeper:主要负责管理集群,存储所有Region的寻址入口,实时监控RegionServer的状态

HBase的逻辑模型如下图所示,有行和列组成,列划分为若干个列族,一般情况下用一个列族,多行列,行健(rowkey)为表的主键,可以通过rowkey来检索数据。时间戳为存储数据的时间,行和列为一个单元(cell),一般每个cell都保存同一份数据的多个版本,因此时间戳可以确定数据的版本。rowkey一般是通过字典排序,采用倒叙的方式。因此最前面的为最新的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值