1.安装jdk,参见前文
2.安装pyspark
#这个比较慢
pip install -U pyspark
#这个快一点
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
# 初始化
spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate()
# 下面两句都可以获取0到9的数据
# data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"])
data = spark.range(0, 10).select(col("id").cast("double"))
# 求和
data.agg({'id': 'sum'}).show()
# 关闭
spark.stop()