Hbase总结

最新推荐文章于 2024-05-06 11:26:18 发布

a大数据yyds

最新推荐文章于 2024-05-06 11:26:18 发布

阅读量1.5k

点赞数 5

分类专栏： HBase

本文链接：https://blog.csdn.net/qq_45765882/article/details/103712373

版权

本文详细介绍了Hbase的安装部署步骤，包括环境配置、集群搭建和启动停止。接着，深入探讨了Hbase的基本概念、使用场景、特性、与Hadoop的关系以及与传统RDBMS的对比。文章还详细解析了Hbase的底层架构，包括Client、Zookeeper、Master和RegionServer的角色。此外，阐述了Hbase的数据模型、表数据模型、行键设计、过滤器机制以及预分区策略。最后，讨论了Hbase的读写过程、flush、compact、split机制，为读者提供了全面的Hbase知识框架。

摘要由CSDN通过智能技术生成

Hbase的安装部署

1、软件包的上传解压

2、修改hbase.env.sh 文件

配置JAVA_HOME

设置hbase使用外部zppkeeper

export HBASE_MANAGES_ZK=false

配置 hbase-site.xml

见讲义

hbase.zookeeper.property.dataDir配置的一定要是zookeeper的数据存储路径

3、配置regionservers和master

在conf/regionservers文件，在这个文件内编辑hbase的工作节点

创建vim backup-masters，在这个文件内编辑hbase的管理节点（可以多个，但真正工作的只有一个）

4、将hadoop的core-site.xml hdfs-site.xml拷贝到hbase conf内

5、将hbase 解压目录拷贝到其他节点

进入/export/server目录执行

scp -r hbase-1.2.0-cdh5.14.0 node02:/$PWD

scp -r hbase-1.2.0-cdh5.14.0 node03:/$PWD

6、配置hbase环境变量，并分发到所有节点

7、hbase 启动

zookeeper需要开启

hadoop集群需要开启

启动hbase

bin/start-hbase.sh

关闭hbase

bin/stop-hbase.sh

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tc5UpJw8-1577330900499)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1576029290541.png)]

Hbase 基本介绍

hbase 建立在HDFS之上的bigtable java版本。

hbase是一个数据库。

不支持join等复杂sql操作，

不支持复杂的事务（行级的事务）

Hbase中支持的数据类型：byte[]

一个表可以有上十亿行，上百万列

面向列(族)的存储

使用key-value操作数据

对于为空(null)的列，并不占用存储空间, 表可以设计的非常稀疏。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gq0lzBKr-1577330900500)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1576114757663.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-joBYEP6y-1577330900500)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1576114723711.png)]

Hbase使用场景

海量数据、精确查询、快速返回。

海量数据：是背景（数据量）

精确查询：是业务场景。

快速返回：是业务对性能要求。

Hbase的特性

高可靠

性能高

列式存储

可伸缩

实施读取

noSQL(不支持SQL)

hbase用途

主要用来存储结构化和半结构化的松散数据。

hdfs:什么都能存储

MR：不能做快速返回

最初的大数据，只有hdfs+ MR ,此时众多的企业有的数据依然是结构化数据（存储数据库内）。大数据内没有提供快速查询的技术。

需求：就是在大数据内添加一个能够处理（快速查询）结构化数据的组件。hbase在最初设计的时候就考虑了扩展性。hbase具有很好的扩展性。

HBase与Hadoop的关系

HDFS

	适合一次读取大量数据,例如：10G   1t

不适合读取少量（几条）数据。

适合一次写入多次读取

HBASE

不适合一次读取大量数据,例如：10G 1t

适合读取少量（几条）数据。

多次写入多次读取

RDBMS与HBase的对比

RDBMS

支持sql

支持事务

支持Join

HBASE

不支持sql

不支持事务

不支持Join

HBase特征简要

1 海量存储

Hbase适合存储PB级别的海量数据,在几十到百毫秒内返回数据。

2 列式存储

这里的列式存储其实说的是列族存储

3 极易扩展

处理能力（RegionServer）的扩展，一个是基于存储的扩展（HDFS）。

4 高并发

这里说的高并发，主要是在并发的情况下，Hbase的单个IO延迟下降并不多

5 稀疏

在列数据为空

最低0.47元/天解锁文章

a大数据yyds

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录