关于spark提交作业报错原因

最新推荐文章于 2022-12-01 20:09:57 发布

Running_you

最新推荐文章于 2022-12-01 20:09:57 发布

阅读量2k

点赞数

分类专栏： spark 算法 python 文章标签： spark python 脚本

本文链接：https://blog.csdn.net/sinat_29508201/article/details/49801793

版权

本文介绍了Spark提交Python脚本作业时遇到的问题，即启动Spark环境后自建的SC与脚本中创建的SC冲突。通过使用`spark-submit`命令并指定master，以及在脚本中正确构造main函数、设置应用名称和关闭SC，可以避免报错。同时，提到了Spark组件的应用类型，如SparkSQL和MLlib主要处理DataFrame，而MLLib处理RDD。

摘要由CSDN通过智能技术生成

spark提供了scala，java及python等脚本作业的功能，但是在实际运行中很容易卡在sc初始化问题上，这里主要原因在于启动spark环境后系统会自建sc环境，若用户在脚本中新建sc将会报错，但是不使用sc又难以达到脚本的效果，这里提供python脚本的提交方法说明：

spark-submit –master local[4] svm.py

或者

spark-submit –master=spark://namenode1-sit.xxxxxxxx.com:7077 classification.py

而其中关于svm.py的内容则应该这么写：

from pyspark import SparkContext
from pyspark.mllib.classification import SVMWithSGD, SVMModel
from pyspark.mllib.regression import LabeledPoint

# Load and parse the data
def parsePo