通过spark操作hive中的数据
在集群(服务器)上整合
步骤
1.如果在spark的bin目录下存在metastore_db或者spark-warehouse文件,将这两个文件删除
2.导入配置文件
1.hive/conf/hive-site.xml
2.hadoop/etc/hadoop/core-site.xml和hdfs-site.xml
将上述三个文件放入spark/conf目录下,这样就整合好了
3.问题
如果遇到以下问题


将spark下的conf目录中的hive-site.xml里引擎的配置改为mr,这样问题就解决了

4.使用
1.使用spark/bin目录下的spark-shell

2.使用spark-sql可以直接使用sql语句进行操作


本文介绍了如何在集群环境中整合Spark与Hive,包括删除metastore_db和spark-warehouse文件,导入配置文件如hive-site.xml和core-site.xml等。在整合过程中可能遇到`java.lang.ClassNotFoundException: org.apache.tez.dag.api.SessionNotRunning`的问题,解决方法是将Spark配置中的Hive引擎设置为MR。最后,提供了使用spark-shell和spark-sql进行操作的步骤。
最低0.47元/天 解锁文章
2414

被折叠的 条评论
为什么被折叠?



