Spark——实验四：从HBASE建立RDD

最新推荐文章于 2023-03-13 15:28:56 发布

诗卿°

最新推荐文章于 2023-03-13 15:28:56 发布

阅读量1.2k

点赞数 4

分类专栏： Spark 文章标签：大数据 hadoop spark linux hdfs

本文链接：https://blog.csdn.net/maochaofei/article/details/117588582

版权

文章目录

一. 实验目的

学习从hbase库建立RDD数据结构的主要技术。

二. 实验内容

1）基于ubuntukylin14.04(16)通过命令行建立hbase程序，完成hbase到RDD实验。
2）基于ubuntukylin14.04(16)通过eclipse平台运行hbase程序，完成hbase到RDD实验。
参考http://dblab.xmu.edu.cn/blog/1316-2/

三. 实验步骤及结果分析

1. 基于ubuntukylin14.04(16)通过命令行建立hbase程序

版本说明：ubuntukylin14.04(16)=hadoop集群（hadoop2.6.0版本）+hbase伪分布式（hbase1.1.2版本）+Scala2.11.8+Spark2.1.0+sbt0.13.15+Scala IDE for eclipse4.7.0+sbt eclipse插件（全局安装）

1.1 创建hbase表

首先启动Hadoop集群和HBase，进入hbase shell，输入create 'student','info'命令创建student表，输入describe 'student'命令可以查看，可以逐条输入以下命令往Student表中写入一个学生记录，然后输入scan 'student'命令查看。
put 'student','1','info:name','Xueqian'
put 'student','1','info:gender','F'
put 'student','1','info:age','23'
在这里插入图片描述

1.2 配置Spark

因为程序运行时需要使用HBase的lib目录下的一些jar包，所以通过以下命令将其拷贝到Spark中。
cd /usr/local/spark/jars
mkdir hbase
cd hbase
cp /usr/local/hbase/lib/hbase*.jar ./
cp /usr/local/hbase/lib/guava-12.0.1.jar ./
cp /usr/local/hbase/lib/htrace-core-3.1.0-incubating.jar ./
cp /usr/local/hbase/lib/protobuf-java-2.5.0.jar ./
在这里插入图片描述

1.3 编写程序读取HBase数据

要让Spark读取HBase，就需要使用SparkContext提供的newAPIHadoopRDD API将表的内容以RDD的形式加载到Spark中。
①创建SparkOperateHBase.scala代码文件（代码见文末），输入以下命令进行操作。
cd /usr/local/spark/mycode
mkdir hbase
cd hbase
mkdir -p src/main/scala
cd src/main/scala
vim SparkOperateHBase.scala
在这里插入图片描述
②创建simple.sbt配置文件，输入cd /usr/local/spark/mycode/hbase命令和vim simple.sbt命令来创建，内容如下，其中scalaVersion对应的是安装的Scala版本号，spark-core对应的是安装的Spark版本号，hbase-client、hbase-common、hbase-server对应的是安装的HBase版本号。

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"
libraryDependencies += "org.apache.hbase" % "hbase-client" % "1.1.2"
libraryDependencies += "org.apache.hbase" % "hbase-common" % "1.1.2"
libraryDependencies += "org.apache.hbase" % "hbase-server" % "1.1.2"

在这里插入图片描述
③检查文件结构，如下所示即为正确。

④将程序打包。在/usr/local/spark/mycode/hbase这个目录中输入sbt package命令进行打包。

⑤将程序运行。输入spark-submit --driver-class-path /usr/local/spark/jars/hbase/*:/usr/local/hbase/conf --class "SparkOperateHBase" /usr/local/spark/mycode/hbase/target/scala-2.11/simple-project_2.11-1.0.jar命令将生成的jar包通过 spark-submit 提交到 Spark 中运行。
在这里插入图片描述
运行成功后的输出中会有如下一行结果。

1.4 编写程序向HBase写入数据

①创建SparkWriteHBase.scala代码文件（代码见文末），输入以下命令进行操作。
cd /usr/local/spark/mycode/hbase
vim src/main/scala/SparkWriteHBase.scala
在这里插入图片描述
②将程序打包。在/usr/local/spark/mycode/hbase这个目录中输入sbt package命令进行打包。

③将程序运行。由于刚才已经编写了另一个SparkOpera

最低0.47元/天解锁文章

诗卿°

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark——实验四：从HBASE建立RDD

文章目录一. 实验目的二. 实验内容三. 实验步骤及结果分析 1. 基于ubuntukylin14.04(16)通过命令行建立hbase程序 1.1 创建hbase表 1.2 配置Spark 1.3 编写程序读取HBase数据 1.4 编写程序向HBase写入数据 2. 基于ubuntukylin14.04(16)通过eclipse平台运行hbase程序 2.1 创建Hbase程序 2.2 在Eclipse运行HBase程序一. 实验目的学习从hbase库建立RDD数据结构的主要技术。二. 实验内
复制链接

扫一扫