Spark——pyspark使用中遇到的坑 (持续更新)

模块依赖问题

因为平时写Spark应用程序基本都用Scala,之前有写过一段pyspark,但是都是在一个类或模块中实现所有的功能,也就自然没有遇到过要在一个模块中导入(import)自己写的另一个模块。这次遇到了,也发现了关于import模块时要注意的问题。

 

1. PyCharm执行

要注意的是,当在一个模块(假如是module1)中导入相同目录(假设是demo)下的另一个模块(module2)中的变量list时,想当然的以为应该是这样导入 ——> from module2 import list,但其实是这样 ——> from demo.module2 import list,就是你要加上要导入模块的上级目录才行,如果想要实现这样导入 —— from module2 import list,需要进行一些设置,如下:
设置步骤还有另外一种可以不进行设置的方式 ——> from .module2 import list,就是在要导入的模块的前面加一个.点表示导入的是同级目录下的模块。

 

2. 集群提交

提交命令:

spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-memory 4G \
--executor-memory 10G \
--executor-cores 5 \
--num-executors 6 \
--conf "spark.yarn.maxAppAttempts=1" \
--py-files /home/module2.py \
/home/module1.py

因为spark任务在运行的时候一般都是分布式的,会先把程序代码module1.py发送到各个executor,而 module1.py 依赖模块 module2.py,那么也就需要把 module2.py 分发到各个executor节点,这就需要用到参数选项–py-files。

在提交到远程集群执行的时候,并不需要像在本地那样还需要注意被导入模块的路径问题,只需要from module2 import list即可。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Spark 是一个开源的大数据处理框架,而 PySpark 则是 Spark 的 Python API。要安装和使用 SparkPySpark,你需要满足以下条件: 1. Java 环境:Spark 是用 Java 编写的,所以需要安装 Java 运行时环境 (JRE) 或 Java 开发工具包 (JDK)。推荐安装 JDK,因为它还包含了 JRE。 2. Python 环境:PySparkSpark 的 Python API,所以需要安装 Python。推荐安装 Python 3.x 版本。 3. Spark 安装包:从 Spark 官方网站 (https://spark.apache.org/downloads.html) 下载适合你系统的 Spark 安装包。选择预编译的版本,可以根据你的需求选择不同的版本和选项。 4. Hadoop 可选:如果你打算在分布式环境使用 Spark,可以选择安装 Hadoop。Hadoop 是一个用于处理大规模数据集的分布式计算框架,Spark 可以与 Hadoop 集成以实现分布式数据处理。 安装完成后,你可以按照以下步骤使用 SparkPySpark: 1. 解压安装包:将下载的 Spark 安装包解压到你选择的目录。 2. 设置环境变量:将 Spark 的 bin 目录路径添加到系统的 PATH 环境变量。 3. 启动 Spark:在终端或命令行输入 `spark-shell` (Scala) 或 `pyspark` (Python) 命令,启动 SparkPySpark。 4. 使用 SparkPySpark:通过编写 Spark 应用程序或在 PySpark 编写 Python 代码,利用 Spark 提供的丰富功能进行大数据处理和分析。 注意事项: - 在使用 PySpark 时,可以使用 Python 的第三方库来增强功能,如 NumPy、Pandas 等。 - 根据你的需求和环境配置,可能需要进行一些额外的设置和调整。请参考 Spark 官方文档和用户指南以获取更多详细信息。 希望以上信息对你有帮助!如果还有其他问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值