spark sql on hive安装问题解析

最新推荐文章于 2024-03-28 16:49:28 发布

mach_learn

最新推荐文章于 2024-03-28 16:49:28 发布

阅读量6.5k

点赞数

分类专栏： spark 文章标签： spark sql hive

本文链接：https://blog.csdn.net/mach_learn/article/details/42456151

版权

在安装Spark时，为了使Spark SQL支持Hive，需要重新编译与Spark版本匹配的源码，添加Hive相关依赖。具体步骤包括：1) 使用sbt或maven编译Spark源码；2) 将生成的jar包放入指定目录；3) 检查并导入缺失的datanucleus类jar包；4) 将hive-site.xml配置文件放入Spark的conf目录。完成这些步骤后，Spark SQL才能正确运行在Hive上。

摘要由CSDN通过智能技术生成

安装spark时，默认的spark assembly 不包含hive支持。spark官网上说明“Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly.” ，要想spark sql在hive上运行，需要编辑与自己使用spark版本相同的源码，将依赖包重新打入assembly中，编译后将所需要的包加入到之前spark安装位置。

1、首先重新编译与使用版本一样的spark源码

本文hadoop版本为2.3.0-cdh5.1.2，spark版本为1.0.2。

本文是用sbt工具进行编译，也可使用maven编译。

编译过程如下：

修改spark1.0.2/project/SparkBuild.scala文件，如下：

val DEFAULT_HADOOP_VERSION = "2.3.0-cdh5.1.2"
val DEFAULT_YARN = true
val DEFAULT_HIVE = true

执行命令：sbt/bin/sbt spark1.0.2/assembly

等待编译，时间较长

编译结束后，查看spark-1.0.2/assembly/target/scala-2.10目录下，有新生成的jar包，本文生成的jar包为spark-assembly-1.0.2-hadoop2.3.0-cdh5.1.2.jar

此外，源码中 spark-1.0.2/lib_managed/jars目录下也含有依赖包。

2、配置sqark sql on hive依赖包

首先执行spark-shell，查看下缺什么包。

<span style="font-size:14px;">./spark-shell \
  --master yarn-client \
  --driver-class-path $(echo /opt/cloudera/parcels/CDH/lib/hadoop-yarn/*.jar |sed 's/ /:/g'):/opt/cloudera/parcels/CDH-5.1.2-1.cdh5.1.2.p0.3/lib/hadoop-hdfs/hadoop-hdfs-2.3.0-cdh5.1.2.jar</span>

然后执行hql语句

<span style="font-size:14px;">val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
</span>

结果出现如下错误

<span style="f

最低0.47元/天解锁文章

mach_learn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark sql on hive安装问题解析

安装spark时，默认的spark assembly 不包含hive支持。spark官网上说明“Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly.” ，要想spark sql在hive上运行，需要编辑与自己使
复制链接

扫一扫

专栏目录