Day 08-hbase基本介绍

DT-熊

于 2024-06-23 15:30:49 发布

阅读量718

点赞数 6

分类专栏：生产实习文章标签： hbase 数据库大数据

本文链接：https://blog.csdn.net/qq_62907049/article/details/139900966

版权

生产实习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

基本介绍

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。
HBase的架构

HBase组件角色：

HMaster

功能：

1.监控 RegionServer

2.处理 RegionServer 故障转移

3.处理元数据的变更

4.处理region 的分配或移除

5.在空闲时间进行数据的负载均衡

6.通过 Zookeeper 发布自己的位置给客户端

HRegionServer

功能：

1.负责存储 HBase 的实际数据

2.处理分配给它的 Region

3.刷新缓存到 HDFS

4.维护WAL

5.执行压缩

6.负责处理 Region 分片

HFile

这是在磁盘上保存原始数据的实际的物理文件，是实际的存储文件。

Store

HFile 存储在 Store 中，一个 Store 对应 HBase 表中的一个Column Family列族(列簇)。

MemStore

顾名思义，就是内存存储，位于内存中，用来保存当前的数据操作，所以当数据保存在 WAL中之后，RegsionServer 会在内存中存储键值对。

HBase部署与启动

（1）下载、解压缩，在/etc/profile全局配置文件中添加

export HBASE_HOME=/export/servers/hbase-2.4.5
export PATH= $P A T H :$ HBASE_HOME/bin

1
2

（2）配置hbase-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_161
export HBASE_MANAGES_ZK=false # 使用外部的ZooKeeper

1
2

（3）配置hbase-site.xml

hbase.rootdir hdfs://my2308-host:9000/hbase

    <!-- zk的位置 -->
    <property>
            <name>hbase.zookeeper.quorum</name>
            <value>localhost</value>
            <description>my2308-host:2181</description>
    </property>

    <property>
            <name>hbase.cluster.distributed</name>
            <value>true</value>
    </property>

    <!-- hbase主节点的位置 -->
    <property>
            <name>hbase.master</name>
            <value>my2308-host:60000</value>
    </property>

（3）拷贝zookeeper的conf/zoo.cfg到hbase的conf/下

（4）启动HBase

执行start-hbase.sh脚本

注意：为了方便启动，可在/etc/profile中添加环境变量

export HBASE_HOME=/export/servers/hbase-2.4.5
export PATH= $P A T H :$ HBASE_HOME/bin

1
2

基本操作
前提条件：

启动Hadoop集群：sbin/start-all.sh
启动ZooKeeper服务：zkServer.sh start
启动HBase服务：start-hbase.sh

操作HBase之前为什么要先启动ZooKeeper服务？

ZooKeeper是一个分布式协调服务，而HBase是一个分布式的面向列的NoSQL数据库。具体来说：

（1）ZooKeeper为HBase提供了可靠的协调服务：HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。

（2）ZooKeeper用于管理HBase元数据：HBase通过ZooKeeper来存储和管理其表结构、Region服务器的位置信息以及其他元数据。客户端可以通过与ZooKeeper交互获取这些元数据，从而了解如何访问和操作HBase集群中的数据。

（3）ZooKeeper监控HBase集群健康状态：ZooKeeper可以监控和报告HBase集群中各个节点的健康状态。它可以检测到节点故障并触发相应的处理机制，例如重新选择领导者或恢复失效节点。

总体上说，ZooKeeper提供了可靠的分布式协调服务，而HBase利用ZooKeeper来实现高可用性、数据一致性和元数据管理等功能，从而使得在大规模分布式环境下运行的HBase数据库更加稳定和可靠。
数据库操作演示：

进入 hbase 客户端

hbase shell

1

查看所有库（命名空间）

list_namespace

1

创建一个名称为’mydb1’的库

create_namespace ‘mydb1’

1

删除’mydb1’库

drop_namespace ‘mydb1’

表操作演示

查看 'mydb’库下的表

list_namespace_tables ‘mydb’

1

查看所有自己创建的表

list

1

在’mydb’库下创建名为test的表，并创建’f1’、'f2’两个列族

create ‘mydb:test’,‘f1’,‘f2’

**注意：**创建表时若不指定库名，则默认在default库下创建表，创建表需要至少指定一个列族

查看表详细信息

describe ‘mydb:test’
或
desc ‘mydb:test’

1
2
3

增加列族

alter ‘mydb:test’,‘f3’

1

删除列族

alter ‘mydb:test’,‘delete’=>‘f2’

1

删除表

disable ‘mydb:test’
drop ‘mydb:test’

1
2

**注意：**删除表需要先进行disable，再进行drop
数据的CRUD操作

先在 default 库下创建一个名为stu的表，列族名称是 info

create ‘stu’,‘info’

1

插入数据

put ‘stu’,‘1001’,‘info:name’,‘linghc’
put ‘stu’,‘1001’,‘info:sex’,‘man’
put ‘stu’,‘1001’,‘info:age’,‘26’

put ‘stu’,‘1002’,‘info:name’,‘renyy’
put ‘stu’,‘1002’,‘info:sex’,‘female’
put ‘stu’,‘1002’,‘info:age’,‘24’

put ‘stu’,‘1003’,‘info:name’,‘yilin’
put ‘stu’,‘1003’,‘info:sex’,‘female’
put ‘stu’,‘1003’,‘info:age’,‘18’

某一行的列的个数可以不一样

put ‘stu’,‘1004’,‘info:name’,‘dongfangb’
put ‘stu’,‘1004’,‘info:sex’,‘female’
put ‘stu’,‘1004’,‘info:age’,‘28’
put ‘stu’,‘1004’,‘info:party’,‘rysj’

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

根据row key（行键）查询

get ‘stu’,‘1004’

1

根据行键、列名查询

get ‘stu’,‘1004’,‘info:name’,‘info:age’

1

扫描表数据

scan ‘stu’

1

按rowkey范围扫描 {STARTROW => ‘1001’ ,STOPROW => ‘1003’} ：左闭右开，此时只查询到 1002

scan ‘stu’,{STARTROW => ‘1001’ ,STOPROW => ‘1003’}

1

指定STOPROW 后加！,可以实现左闭右闭

scan ‘stu’,{STARTROW => ‘1001’ ,STOPROW => ‘1003!’}

1

修改数据：直接put进行覆盖

put ‘stu’,‘1001’,‘info:name’,‘linghc1’

**注意：**修改数据后，其实只是在原来的基础上增加了一条数据，查询的时候返回了时间戳最新的一个版本，旧版本的数据还在；

查寻每个单元格的2个版本数据

scan ‘stu’,{RAW=>true,VERSIONS=>2}

注意RAW参数必须和VERSIONS一起使用

旧版本的数据在适当的时候会被释放；如果想要保留最新两个版本的数据，可以将某个表的 VERSIONS设置为2。

更改表的VERSIONS

alter ‘stu’,{NAME=>‘info’,VERSIONS=>2}

1

删除数据

delete ‘stu’,‘1001’,‘info:sex’

此时查询会发现无数据

get ‘stu’,‘1001’,‘info:sex’

再通过版本号查询

scan ‘stu’,{RAW=>true,VERSIONS=>2}

会发现删除的数据有Delete标注

根据行键和列名删除列

deleteall ‘stu’,‘1001’,‘info:sex’

标注为：DeleteColumn

根据行键删除列族

deleteall ‘stu’,‘1004’

标注为：DeleteFamily

删除表中所有数据

truncate ‘stu’

truncate命令将删除表中的所有数据行，但是保留表的结构和配置信息。

DT-熊

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Day 08-hbase基本介绍

基本介绍HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。HBase的架构HMaster功能：1.监控 RegionServer2.处理 RegionServer 故障转移3.处理元数据的变更4.处理region 的分配或移除5.在空闲时间进行数据的负载均衡6.通过 Zookeeper 发布自己的位置给客户端功能：1.负责存储 HBase 的实际数据2.处理分配给它的 Region。
复制链接

扫一扫