Spark集成Hive和Hbase实现离线数据分析

最新推荐文章于 2023-03-03 16:40:54 发布

IT142546355

最新推荐文章于 2023-03-03 16:40:54 发布

阅读量1.3k

点赞数

分类专栏：大数据文章标签： spark spark SQL hive hbase

本文链接：https://blog.csdn.net/IT142546355/article/details/102703124

版权

大数据专栏收录该内容

18 篇文章 1 订阅

订阅专栏

前言

Spark SQL是Spark处理结构化数据的模块。本节中将Spark SQL和Hive以及Hbase集成，实现离线数据的分析。Hive和Hbase的集成请参阅：Hive+Mysql+Hbase集成配置实现离线数据分析

说明：三台机器的主机名分别为：bigdata.centos01、bigdata.centos02、bigdata.centos03

服务分布：

	bigdata.centos01	bigdata.centos02	bigdata.centos03
Spark (v2.2.0)		Spark (Master&Worker)
Hive (v0.13.1)			Hive
Hbase (0.98.6)	master regionServer	master(后备) regionServer	regionServer

bigdata.centos01

bigdata.centos02

bigdata.centos03

Spark

(v2.2.0)

Spark

(Master&Worker)

Hive

(v0.13.1)

Hive

Hbase

(0.98.6)

master

regionServer

master(后备)

regionServer

一、Spark+Hive

1. 配置

复制Hive的配置文件 hive-site.xml 到spark的 conf 目录

# bigdata.centos03
scp conf/hive-site.xml bigdata.centos02:/opt/modules/spark-2.2.0-bin/conf

修改复制的hive-site.xml

<!-- 配置hive metastore服务地址 -->
<property>
    <name>hive.metastore.uris</name>
    <value>thrift://bigdata.centos03:9083</value>
</property>

复制mysql驱动包到spark的 jars 目录

scp lib/mysql-connector-java-5.1.35.jar bigdata.centos02:/opt/modules/spark-2.2.0-bin/jars

2.测试

启动hive的 metastore 服务

bin/hive --service metastore

进入spark-shell命令行

bin/spark-shell

读取hive内部表(u_data)数据

scala> spark.sql("select * from test.u_data").show()

测试结果如下：

二、Spark+Hbase

Spark SQL和Hbase的集成，其核心就是Spark SQL通过Hive外部表来获取Hbase表的数据。

1. 配置

复制以下hive和hbase中的jar包到spark目录

# hbase
hbase-client-0.98.6-cdh5.3.9.jar 
hbase-common-0.98.6-cdh5.3.9.jar 
hbase-protocol-0.98.6-cdh5.3.9.jar 
hbase-server-0.98.6-cdh5.3.9.jar
htrace-core-2.04.jar

# hive
# 由于spark编译未指定hive的版本号，默认版本是1.2.1，而我用的hive版本是0.13.1
# 故而需要额外下载hive-hbase-handler-1.2.1.jar放入spark jars目录
# 总而言之：jar包版本号要和spark编译的hive版本号一致
hive-hbase-handler-1.2.1.jar

2. 测试

进入spark-shell命令行

bin/spark-shell

读取hive外部表的数据

scala> spark.sql("select * from test.weblogs limit 2").show()

测试结果

IT142546355

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Spark集成Hive和Hbase实现离线数据分析

目录前言一、Spark+Hive1. 配置2.测试二、Spark+Hbase1. 配置2. 测试前言Spark SQL是Spark处理结构化数据的模块。本节中将Spark SQL和Hive以及Hbase集成，实现离线数据的分析。Hive和Hbase的集成请参阅：Hive+Mysql+Hbase集成配置实现离线数据分析说明：三台机器的主机名分别为：bigdat...
复制链接

扫一扫

专栏目录