任务3： Spark RDD读写HBase数据

最新推荐文章于 2023-03-13 15:28:56 发布

allinn.

最新推荐文章于 2023-03-13 15:28:56 发布

阅读量785

点赞数 1

文章标签：分布式 spark hadoop

本文链接：https://blog.csdn.net/kichum123/article/details/107327537

版权

这篇博客介绍了如何在Spark中使用RDD读写HBase数据。内容包括HBase的背景介绍、实训环境配置（如CentOS上的Spark和Hadoop集群）、HBase的安装与配置、制作HBase样本数据以及Spark RDD读取HBase数据的步骤，涉及HBase的环境变量配置、版本检查、表的创建与数据插入、Spark的jar包依赖和提交任务等关键操作。

摘要由CSDN通过智能技术生成

任务3： Spark RDD读写HBase数据

配置参照林子雨老师的博客

文章目录

任务3： Spark RDD读写HBase数据

一、实训背景

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

二、实训环境

两台1核2G的主机
主机系统为centos6.5
都已安装jdk1.8，并在~/.bashrc配置了环境变量
都已配置好ssh免密码登陆
都已搭建好spark standalone集群平台
都已搭建好hadoop集群环境

三、实训步骤

步骤1: 安装HBase

从清华大小镜像站点下载HBbase

root@server1 ~# wget https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.4.13/hbase-1.4.13-bin.tar.gz

2、解压程序包,并放在/usr/local目录下

root@server1 ~# tar xzvf hbase-1.4.13-bin.tar.gz -C /usr/local

3、配置环境变量,在~/.bashrc中将hbase下的bin目录添加到path中。

export PATH=$PATH:/usr/local/hbase/bin

注意，要运行source ~/.bashrc命令使之生效。

4、查看Hbase的版本

root@server1 ~# hbase version

步骤2: 配置HBase数据存储于hadoop

在hbase-env.sh配置JAVA_HOME环境变量

[root@server1 conf]# vi hbase-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.b09-2.el6_10.x86_64

配置hbase-site.xml文件

[root@server1 conf]# vi hbase-site.xml
<configuration>
<property>
        <name>hbase.rootdir</name>
    <!-- hbase存放数据目录 -->
        <value>hdfs://server1:9000/hbase</value>
        <!-- 端口要和Hadoop的fs.defaultFS端口一致-->
</property>
<property>
        <name>hbase.cluster.distributed</name>
    <!-- 是否分布式部署 -->
        <value>true</value>
</prop