Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差于Spark。通过搭建一个Hive On Spark可以修改Hive底层的计算引擎,将MapReduce替换成Spark,从而大幅度提升计算速度。
1.在CDH集群中添加hive和spark组件
2.修改hive配置
添加完组件后再hive会报警告,将此处修改为spark
然后再修改hive的执行引擎为spark
然后更新配置,重启相关服务就可以了.
重启完服务后,在有hive组件的节点查看hive的配置文件(hive-site.xml)可查看已经修改成功