项目中用hive处理数据,但是hive默认处理引擎是MR,速度比较拉垮。
在此记录分享一下hive on spark的配置。
1. Hive on Spark
基于Spark的Hive,实质上是将Hive默认的计算引擎MapReduce替换成Spark。
hive on spark简介可查看:https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark
2. 配置
2.1 版本兼容性
hive和spark版本兼容。这个版本兼容不是强制的,但是它给的这个是肯定可以跑的。
Hive Version | Spark Version |
---|---|
master | 2.3.0 |
3.0.x | 2.3.0 |
2.3.x | 2.0.0 |
2.2.x | 1.6.0 |
2.1.x | 1.6.0 |
2.0.x | 1.5.0 |
1.2.x | 1.3.1 |
1.1.x | 1.2.0 |
2.2 安装Spark
安装的spa