介绍写如何将hive整合到sparkSql中使用,因为公司一些老hadoop框架中的hive一直保留着,但spark框架也要使用hive怎么办呐,
很简单,配置文件搞一下就可以了。(注意hive和spark的版本是有对应关系的,去官网查下,下载对应的hive和spark,否则启动会报错。
1,配置文件
在spark的conf目录中添加hdfs-site.xml 和 hive-site.xml配置文件。
配置文件从之前配好的hadoop和hive的conf中去拷一份即可。
2,启动应用
2.1 启动hadoop hdfs (安装启动之前文章有详解)
2.2 启动spark ha集群 (安装启动之前文章有详解)
2.3 在spark master上的 spark安装目录下执行,启动spark-sql命令行界面。
bin/spark-sql --driver-class-path /usr/app/spark-1.6.1-bin-hadoop2.6/lib/mysql-connector-java-5.1.32.jar
注:(保证hive中至少有一个自定义table,才能执行成功!)
2.4 启动成功会把hive中原有的表全部导进来了,这样你就可以在sparksql中使用hive中所有表了。你可以使用sparksql语法,也可以使用sql原生语法,高兴就好。