在Python中,你可以把应用写成Python脚本,但是需要使用Spark自带的bin/spark-submit脚本来运行。spark-submit脚本会帮我们引入Python程序的Spark依赖。这个脚本为Spark的PythonAPI配置好了运行环境。
首先找到spark的安装目录,一般在Linux下,会将第三方软件安装到/opt目录下面。
然后运行下述指令:
/opt/spark/bin/spark-submit my_script.py
或者进入到spark的安装目录下面:
bin/spark-submit my_script.py
测试脚本:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
lines = sc.parallelize(["pandas", "cat", "i like pandas"])
word = lines.filter(lambda s: "pandas" in s)
print(word.collect())