spark提供了scala,java及python等脚本作业的功能,但是在实际运行中很容易卡在sc初始化问题上,这里主要原因在于启动spark环境后系统会自建sc环境,若用户在脚本中新建sc将会报错,但是不使用sc又难以达到脚本的效果,这里提供python脚本的提交方法说明:
spark-submit –master local[4] svm.py
或者
spark-submit –master=spark://namenode1-sit.xxxxxxxx.com:7077 classification.py
而其中关于svm.py的内容则应该这么写:
from pyspark import SparkContext
from pyspark.mllib.classification import SVMWithSGD, SVMModel
from pyspark.mllib.regression import LabeledPoint
# Load and parse the data
def parsePo