任务3: Spark RDD读写HBase数据
文章目录
一、实训背景
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
二、实训环境
- 两台1核2G的主机
- 主机系统为centos6.5
- 都已安装jdk1.8,并在~/.bashrc配置了环境变量
- 都已配置好ssh免密码登陆
- 都已搭建好spark standalone集群平台
- 都已搭建好hadoop集群环境
三、实训步骤
步骤1: 安装HBase
- 从清华大小镜像站点下载HBbase
root@server1 ~# wget https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.4.13/hbase-1.4.13-bin.tar.gz
2、解压程序包,并放在/usr/local
目录下
root@server1 ~# tar xzvf hbase-1.4.13-bin.tar.gz -C /usr/local
3、配置环境变量,在~/.bashrc
中将hbase下的bin目录添加到path中。
export PATH=$PATH:/usr/local/hbase/bin
注意,要运行source ~/.bashrc
命令使之生效。
4、查看Hbase的版本
root@server1 ~# hbase version
步骤2: 配置HBase数据存储于hadoop
-
在hbase-env.sh配置JAVA_HOME环境变量
[root@server1 conf]# vi hbase-env.sh export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.b09-2.el6_10.x86_64
-
配置hbase-site.xml文件
[root@server1 conf]# vi hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <!-- hbase存放数据目录 --> <value>hdfs://server1:9000/hbase</value> <!-- 端口要和Hadoop的fs.defaultFS端口一致--> </property> <property> <name>hbase.cluster.distributed</name> <!-- 是否分布式部署 --> <value>true</value> </prop