HBase 单机和集群环境部署教程

闲人编程

已于 2024-08-10 10:29:34 修改

阅读量540

点赞数 3

分类专栏：大数据文章标签： hbase 数据库大数据分布式集群部署

于 2024-08-10 10:20:30 首次发布

本文链接：https://blog.csdn.net/qq_42568323/article/details/141086973

版权

大数据专栏收录该内容

14 篇文章 0 订阅

订阅专栏

下面是 HBase 单机和集群环境部署的详细教程，包括部署过程中的注意事项以及一个使用的案例。HBase 是一个开源的分布式、可扩展的 NoSQL 数据库，运行在 Hadoop HDFS 上，用于处理大规模的结构化数据。

一、HBase 单机环境部署

1. 环境准备

操作系统：Linux（推荐 Ubuntu 20.04 或 CentOS 7）
Java：HBase 需要 Java 环境，推荐使用 OpenJDK 8 或 11。
Hadoop：HBase 可以独立运行，但推荐与 Hadoop 配合使用。

2. 安装 Java

在 Ubuntu 中：

sudo apt update
sudo apt install openjdk-11-jdk

在 CentOS 中：

sudo yum install java-11-openjdk

验证 Java 安装：

java -version

3. 安装 Hadoop（可选）

详见文章Hadoop单机及集群部署

虽然 HBase 可以单独运行，但与 Hadoop 集成可以提高性能和数据存储能力。

3.1 下载并解压 Hadoop

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz
tar -xzvf hadoop-3.3.5.tar.gz
mv hadoop-3.3.5 /usr/local/hadoop

3.2 配置 Hadoop

编辑 Hadoop 的配置文件（/usr/local/hadoop/etc/hadoop/core-site.xml、hdfs-site.xml 和 mapred-site.xml），根据需要设置 HDFS 和 MapReduce 配置。

4. 安装 HBase

4.1 下载并解压 HBase

访问 HBase 官网下载最新版本的 HBase。

wget https://downloads.apache.org/hbase/2.7.0/hbase-2.7.0-bin.tar.gz
tar -xzvf hbase-2.7.0-bin.tar.gz
mv hbase-2.7.0 /usr/local/hbase

4.2 配置 HBase

编辑 HBase 的配置文件 /usr/local/hbase/conf/hbase-site.xml：

<configuration>
    <!-- 设置 HBase 数据存储路径 -->
    <property>
        <name>hbase.root.logger</name>
        <value>INFO,console</value>
    </property>
    
    <property>
        <name>hbase.root.logger</name>
        <value>INFO,console</value>
    </property>

    <!-- 设置 HBase 的 Zookeeper 地址 -->
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>localhost</value>
    </property>

    <!-- 设置 HBase 的 HDFS 地址 -->
    <property>
        <name>hbase.hdfs.home</name>
        <value>/usr/local/hadoop</value>
    </property>

    <!-- 设置 HBase 的 HMaster 和 RegionServer 的主机名 -->
    <property>
        <name>hbase.master</name>
        <value>localhost:16000</value>
    </property>
    
    <property>
        <name>hbase.regionserver</name>
        <value>localhost:16020</value>
    </property>
</configuration>

创建数据存储目录：
```
mkdir -p /usr/local/hbase/data
```

5. 启动 HBase

启动 HBase 组件：
```
/usr/local/hbase/bin/start-hbase.sh
```
验证 HBase 是否正常运行：
```
/usr/local/hbase/bin/hbase shell
```
在 HBase Shell 中，你应该能够看到 HBase Shell 提示符 hbase(main):001:0>，说明 HBase 正常启动。

6. HBase 单机部署的注意事项

Java 版本：确保安装了与 HBase 兼容的 Java 版本。
Hadoop 配置：如果使用 Hadoop，确保 Hadoop 配置正确，并且 HDFS 启动正常。
数据目录：确保 HBase 数据存储目录具有适当的权限，并且磁盘空间充足。
端口设置：默认 HBase 使用 16000 和 16020 端口，如果有冲突，请修改配置文件中的端口号。
内存配置：根据机器配置调整 HBase 的内存设置，以优化性能。

二、HBase 集群环境部署

HBase 集群由多个 HBase 实例组成，能够提供高可用性和负载均衡。

1. 环境准备

多台服务器：至少 3 台（包含 HMaster 和多个 RegionServer）
操作系统：Linux（推荐 Ubuntu 20.04 或 CentOS 7）
Java：在所有节点上安装 Java
Hadoop：在所有节点上安装并配置 Hadoop（如有需要）

2. 配置 ZooKeeper 集群

HBase 依赖 ZooKeeper 进行集群协调和管理。

2.1 安装 ZooKeeper

在每台 ZooKeeper 节点上安装 ZooKeeper（参考单机部署中的步骤）。

2.2 配置 ZooKeeper 集群

在每个 ZooKeeper 节点的 zoo.cfg 文件中，添加集群节点配置：

server.1=zookeeper1:2888:3888
server.2=zookeeper2:2888:3888
server.3=zookeeper3:2888:3888

在每台服务器上创建 myid 文件：

echo "1" > /var/lib/zookeeper/myid  # 在 zookeeper1 上
echo "2" > /var/lib/zookeeper/myid  # 在 zookeeper2 上
echo "3" > /var/lib/zookeeper/myid  # 在 zookeeper3 上

启动 ZooKeeper 节点：

/usr/local/zookeeper/bin/zkServer.sh start

3. 配置 HBase 集群

3.1 配置 HBase Master 和 RegionServer

在每台服务器上编辑 HBase 的 hbase-site.xml 配置文件，设置如下参数：

<configuration>
    <!-- 设置 HBase 数据存储路径 -->
    <property>
        <name>hbase.root.logger</name>
        <value>INFO,console</value>
    </property>
    
    <!-- 设置 ZooKeeper 集群地址 -->
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>zookeeper1,zookeeper2,zookeeper3</value>
    </property>

    <!-- 设置 HBase 的 HDFS 地址 -->
    <property>
        <name>hbase.hdfs.home</name>
        <value>/usr/local/hadoop</value>
    </property>

    <!-- 设置 HBase Master 和 RegionServer 地址 -->
    <property>
        <name>hbase.master</name>
        <value>master:16000</value>
    </property>
    
    <property>
        <name>hbase.regionserver</name>
        <value>regionserver:16020</value>
    </property>

    <!-- 配置 HBase 数据存储路径 -->
    <property>
        <name>hbase.root.dir</name>
        <value>hdfs://namenode:8020/hbase</value>
    </property>
</configuration>

3.2 启动 HBase 集群

在 HBase Master 节点上启动 HBase Master：
```
/usr/local/hbase/bin/start-hbase.sh
```

在所有 RegionServer 节点上启动 RegionServer：

/usr/local/hbase/bin/hbase-daemon.sh start regionserver

4. 验证 HBase 集群状态

在 HBase Master 节点上访问 HBase Web 界面：
```
http://master:16010
```
在 HBase Shell 中，检查集群状态：
```
/usr/local/hbase/bin/hbase shell
```
使用以下命令查看集群状态：
```
hbase(main):001:0> status 'detailed'
```

5. HBase 集群部署的注意事项

ZooKeeper 配置：确保所有 ZooKeeper 节点配置正确，能够进行集群协调。
HDFS 配置：确保 HBase 与 HDFS 集成正常，数据存储路径配置正确。
网络设置：确保所有节点之间的网络连接正常，并且防火墙开放了必要端口。
内存和存储：根据节点的硬件配置调整 HBase 的内存和存储设置。
监控和管理：使用工具（如 HBase Master Web UI、Ganglia、Prometheus 等）监控集群状态，及时处理故障。
安全性：配置合适的权限和访问控制，确保数据安全。

三、HBase 使用案例：简单的表操作

1. 创建和

操作表

1.1 创建表

在 HBase Shell 中执行以下命令创建表：

create 'test_table', 'cf1', 'cf2'

1.2 插入数据

put 'test_table', 'row1', 'cf1:qual1', 'value1'
put 'test_table', 'row1', 'cf2:qual2', 'value2'

1.3 查询数据

get 'test_table', 'row1'

1.4 扫描表

scan 'test_table'

1.5 删除表

disable 'test_table'
drop 'test_table'

2. Python 示例：HBase 客户端

使用 happybase 库操作 HBase。

2.1 安装 happybase

pip install happybase

2.2 使用 Python 操作 HBase

import happybase

# 连接到 HBase
connection = happybase.Connection('localhost')

# 创建表
connection.create_table(
    'test_table',
    {'cf1': dict(), 'cf2': dict()}
)

# 获取表对象
table = connection.table('test_table')

# 插入数据
table.put(b'row1', {b'cf1:qual1': b'value1', b'cf2:qual2': b'value2'})

# 查询数据
row = table.row(b'row1')
print(row)

# 扫描表
for key, data in table.scan():
    print(f'{key} => {data}')

# 删除表
connection.delete_table('test_table', disable=True)