基于Hadoop3.2的搜狗网搜索日志行为分析(17)--Spark SQL与Hive和Hbase集成

最新推荐文章于 2023-04-14 14:46:56 发布

jasmine_wxy

最新推荐文章于 2023-04-14 14:46:56 发布

阅读量186

点赞数

分类专栏：基于Hadoop3.2的搜狗网搜索日志行为分析文章标签： hive spark hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jasmine_wxy/article/details/129779633

版权

基于Hadoop3.2的搜狗网搜索日志行为分析专栏收录该内容

20 篇文章 6 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何将Spark SQL与Hive和HBase集成，包括将hive-site.xml复制到Spark conf目录，拷贝MySQL驱动包，修改spark-env.sh配置文件，以及启动spark-sql进行Hive表操作的测试。此外，还涵盖了将HBase相关jar包拷贝到Spark jars目录下，启动HBase，并通过Spark SQL操作HBase数据的步骤。

摘要由CSDN通过智能技术生成

Spark SQL是从Shark发展而来。Spark SQL是Spark用来处理结构化数据的一个模块，它在RDD之上抽象出来Dataset/Dataframe，并且可以充当分布式SQL查询引擎。
本项目使用Spark SQL进行离线分析，批量处理用户行为日志，对用户行为进行分析。
离线分析过程：

Spark SQL与Hive、Mysql、Hbase集成，其核心就是Spark SQL通过hive外部表来获取HBase的表数据。
所以整个集成过程分为3步：

Spark SQL与Hive集成
Spark SQL与Mysql集成
Spark SQL与HBase集成

1、Spark SQL与Hive集成

Spark SQL与Hive集成，只需要三步：

将hive的配置文件hive-site.xml拷贝到spark的conf目录下，并进行修改
拷贝MySQL驱动包
修改Spark配置文件spark-env.sh文件，指定HADOOP的主目录
（1）修改hive-site配置文件
登录namenode节点，进入hive的conf目录，修改hive-site.xml配置文件添加如下内容。
gedit hive-site.xml

<property>
	<name>hive.metastore.uris</name>
	<value>thrift://namenode:9083</value>
</property>

然后将hive的配置文件hive-site.xml拷贝到spark的conf目录下。

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于Hadoop3.2的搜狗网搜索日志行为分析(17)--Spark SQL与Hive和Hbase集成

Spark SQL是从Shark发展而来。Spark SQL是Spark用来处理结构化数据的一个模块，它在RDD之上抽象出来Dataset/Dataframe，并且可以充当分布式SQL查询引擎。本项目使用Spark SQL进行离线分析，批量处理用户行为日志，对用户行为进行分析。离线分析过程：Spark SQL与Hive、Mysql、Hbase集成，其核心就是Spark SQL通过hive外部表来获取HBase的表数据。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。