【Spark案例】本地访问cdh集群不将配置文件放入resource目录方式

最新推荐文章于 2024-04-24 14:35:40 发布

芹菜学长

最新推荐文章于 2024-04-24 14:35:40 发布

阅读量3.4k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/OldDirverHelpMe/article/details/124413067

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

【Spark案例】本地访问cdh集群不将配置文件放入resource目录方式

背景故事

今天我领导，他想用pyspark连接集群中的hive，作数据分析用。于是这变成了一个在本地集群中如何访问远程集群的问题。
在python环境中使用pyspark构建sparkSession的过程当中，config参数选项里面配置了一个hive.metastore.uris的时候，sparkSession能够访问hive的数据库，及表信息。但是读取数据的时候会发生报错。

问题分析

在java中

如果是maven构建的java项目当中，使用spark远程连接集群的话，需要在项目中的resource文件目录下面将hadoop的配置文件如hdfs-site.xml,core-site.xml,mapred-site.xml,yarn-site.xml文件放置进resource目录中。接下来运行的时候，maven会将这些配置文件打包到classpath中。然后源代码中，就会加载这些配置文件，相关的代码如下：
代码路径：org/apache/hadoop/conf/Configuration.java
在这里插入图片描述

在python中

那么python中没有似乎没有resource文件夹，好像也不能像java一样package，那么我们如何做呢？
我们将里面这些xml里面的配置文件，用文本编辑器打开。提取出所有的键值对，然后在启动sparkSession的时候调用config(key,value)添加这些键值对，在每个键的前面加上spark.hadoop前缀，该代码写在这里：
代码路径：org/apache/spark/deploy/SparkHadoopUtil.scala
在这里插入图片描述
返回来的SparkSession就可以访问正常调用sql方法访问数据啦。

总结：

这样实现了不通过将core-site.xml,hdfs-site.xml文件就能够访问集群读取数据了。如果各位路过的大佬有什么更好的方法，欢迎在下方留言！谢谢大家～

芹菜学长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark案例】本地访问cdh集群不将配置文件放入resource目录方式

【Spark案例】本地访问cdh集群不将配置文件放入resource目录方式背景故事今天我领导，他想用pyspark连接集群中的hive，作数据分析用。于是这变成了一个在本地集群中如何访问远程集群的问题。在python环境中使用pyspark构建sparkSession的过程当中，config参数选项里面配置了一个hive.metastore.uris的时候，sparkSession能够访问hive的数据库，及表信息。但是读取数据的时候会发生报错。问题分析在java中如果是maven构建的jav
复制链接

扫一扫