[hive on spark:First Step]构建不支持hive的spark分布式安装包

最新推荐文章于 2023-02-01 21:08:41 发布

芹菜学长

最新推荐文章于 2023-02-01 21:08:41 发布

阅读量162

点赞数

分类专栏：环境搭建文章标签： hive on spark 构建spark

本文链接：https://blog.csdn.net/OldDirverHelpMe/article/details/100192075

版权

环境搭建专栏收录该内容

19 篇文章 1 订阅

订阅专栏

动机

因为hive的执行引擎可以设置为spark，但是hive的默认执行引擎是mapreduce，这种操作是对磁盘进行大量的io操作，所以在效率上不会比spark高，运行时间也是会比spark更长，但是官方发布的spark版本内置了hive组件，然后就是使用hived时候会出现各种各样的问题(确实出现了各种各样的问题，不然我就不会下这篇技术水文)

环境

linux cent OS 7

操作

首先去官网上下载spark的源码包spark的各个版本的下载地址
我这里使用的是spark 2.2.2版本,当我下载完成之后，打开文档目录，里面的文件结构如下:
在这里插入图片描述
然后我是打算构建分布式的文件安装包，在官网上有说明如何构建spark，地址:构建spark,这片文档里面有说明如何构建一个如同官网一样的分布式文件安装包。然而官网并没有给出一个构建hive on spark的编译例子，只是在文档里面说，spark可以构建xx组件支持一类的。那么要构建一个hive on spark的安装包应该怎么去做？
点击打开这个文章hive on spark这
重点
请注意，您必须拥有不包含Hive jar 的Spark版本。意思是一个不是用Hive配置文件构建的。如果您将使用Parquet表，建议您也启用“parquet”配置文件。否则Parquet依赖项可能会发生冲突。要从安装中删除Hive jar，只需在Spark存储库下使用以下命令：
spark2.0.0之前:

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"

自Spark 2.0.0起：

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

自Spark 2.3.0起：

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided,orc-provided"

因为我用的spark的版本是spark2.2.2所以我利用了中间的那段命令（要在spark源码目录下使用）进行构建spark分布式的jar包。等待一定时间之后:
在spark的根目录下有一个安装包，这个时候就可以开始部署spark了。
在这里插入图片描述
部署spark留在之后的一篇文章里面说明，可能会有一些其它的坑要踩。
我的文章可能没有阐述明白，如果有什么其它的问题我们可以共同讨论。谢谢。

芹菜学长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[hive on spark:First Step]构建不支持hive的spark分布式安装包

动机因为hive的执行引擎可以设置为spark，但是hive的默认执行引擎是mapreduce，这种操作是对磁盘进行大量的io操作，所以在效率上不会比spark高，运行时间也是会比spark更长，但是官方发布的spark版本内置了hive组件，然后就是使用hived时候会出现各种各样的问题(确实出现了各种各样的问题，不然我就不会下这篇技术水文)环境linux cent OS7操作首先...
复制链接

扫一扫

专栏目录