结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序。Hive和SparkSQL都不负责计算。Hive的默认执行引擎是mr,还可以运行在Spark和Tez。Spark可以连接多种数据源,然后使用SparkSQL来执行分布式计算。
Hive On Spark 配置
1、首先安装包要选择对,否则就没有开始了。
Hive版本:apache-hive-2.1.1-bin.tar
spark版本:spark-1.6.3-bin-hadoop2.4-without-hive(不需要吧Hive编译进去)
2、假设你已经安装好Hive(元数据为Derby)和spark,那么默认Hive走mr,需要修改以下配置让Hive走spark
<property> <name>hive.execution.engine</name> <value>spark</value> </property> |
3、配置环境变量及运行时参数
在hive-site.xml中配置SPARK_HOME;
在hive-site.xml或者或者spark-default.conf或者spark-env.conf配置spark运行时参数,也可以在Hive运行环境中设置临时参数:
|