Spark on hive简介:
Spark通过Spark-SQL使用hive 语句,操作hive,底层运行的还是 spark rdd。
(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息
(2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
(3)接下来就可以通过spark sql来操作hive表中的数据
SparkSQL与Hive整合步骤:
第一步:拷贝hive-site.xml配置文件
将node03服务器安装的hive目录下的conf文件下的hive-site.xml文件拷贝到hive安装的各个节点,node03执行以下命令
cd /temp/install/hive-1.1.0-cdh5.14.2/conf
scp hive-site.xml node01:/temp/install/spark-2.3.3-bin-hadoop2.7/conf/
scp hive-site.xml node02:/temp/install/spark-2.3.3-bin-hadoop2.7/conf/
scp hive-site.xml node03:/temp/install/spark-2.3.3-bin-hadoop2.7/conf/