基于Hadoop3.2的搜狗网搜索日志行为分析(17)--Spark SQL与Hive和Hbase集成

本文详细介绍了如何将Spark SQL与Hive和HBase集成,包括将hive-site.xml复制到Spark conf目录,拷贝MySQL驱动包,修改spark-env.sh配置文件,以及启动spark-sql进行Hive表操作的测试。此外,还涵盖了将HBase相关jar包拷贝到Spark jars目录下,启动HBase,并通过Spark SQL操作HBase数据的步骤。
摘要由CSDN通过智能技术生成

Spark SQL是从Shark发展而来。Spark SQL是Spark用来处理结构化数据的一个模块,它在RDD之上抽象出来Dataset/Dataframe,并且可以充当分布式SQL查询引擎。
本项目使用Spark SQL进行离线分析,批量处理用户行为日志,对用户行为进行分析。
离线分析过程:

Spark SQL与Hive、Mysql、Hbase集成,其核心就是Spark SQL通过hive外部表来获取HBase的表数据。
所以整个集成过程分为3步:

  • Spark SQL与Hive集成
  • Spark SQL与Mysql集成
  • Spark SQL与HBase集成

1、Spark SQL与Hive集成

Spark SQL与Hive集成,只需要三步:

  • 将hive的配置文件hive-site.xml拷贝到spark的conf目录下,并进行修改
  • 拷贝MySQL驱动包
  • 修改Spark配置文件spark-env.sh文件,指定HADOOP的主目录
    (1)修改hive-site配置文件
    登录namenode节点,进入hive的conf目录,修改hive-site.xml配置文件添加如下内容。
    gedit hive-site.xml
<property>
	<name>hive.metastore.uris</name>
	<value>thrift://namenode:9083</value>
</property>

然后将hive的配置文件hive-site.xml拷贝到spark的conf目录下。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值