[hive on spark:First Step]构建不支持hive的spark分布式安装包

动机

因为hive的执行引擎可以设置为spark,但是hive的默认执行引擎是mapreduce,这种操作是对磁盘进行大量的io操作,所以在效率上不会比spark高,运行时间也是会比spark更长,但是官方发布的spark版本内置了hive组件,然后就是使用hived时候会出现各种各样的问题(确实出现了各种各样的问题,不然我就不会下这篇技术水文)

环境

  • linux cent OS 7

操作

首先去官网上下载spark的源码包spark的各个版本的下载地址
我这里使用的是spark 2.2.2版本,当我下载完成之后,打开文档目录,里面的文件结构如下:
在这里插入图片描述
然后我是打算构建分布式的文件安装包,在官网上有说明如何构建spark,地址:构建spark,这片文档里面有说明如何构建一个如同官网一样的分布式文件安装包。然而官网并没有给出一个构建hive on spark的编译例子,只是在文档里面说,spark可以构建xx组件支持一类的。那么要构建一个hive on spark的安装包应该怎么去做?
点击打开这个文章hive on spark
重点
请注意,您必须拥有不包含Hive jar 的Spark版本 。意思是一个不是用Hive配置文件构建的。如果您将使用Parquet表,建议您也启用“parquet”配置文件。否则Parquet依赖项可能会发生冲突。要从安装中删除Hive jar,只需在Spark存储库下使用以下命令:
spark2.0.0之前:

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"

自Spark 2.0.0起:

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

自Spark 2.3.0起:

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided,orc-provided"

因为我用的spark的版本是spark2.2.2所以我利用了中间的那段命令(要在spark源码目录下使用)进行构建spark分布式的jar包。等待一定时间之后:
在spark的根目录下有一个安装包,这个时候就可以开始部署spark了。
在这里插入图片描述
部署spark留在之后的一篇文章里面说明,可能会有一些其它的坑要踩。
我的文章可能没有阐述明白,如果有什么其它的问题我们可以共同讨论。谢谢。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值