现在安装pyspark不用像上一篇介绍的那么繁琐的步骤了。
就只需要两步就好
安装Java/Jdk
过程基本参照上一篇,保证cmd下
java -version
可以得出如下的正确结果就好了。
java version "1.8.0_172"
Java(TM) SE Runtime Environment (build 1.8.0_172-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.172-b11, mixed mode)
安装pyspark
直接像其它python包一样pip安装就好了
pip install -U pyspark
如果国内网速太慢,添加镜像
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
验证
新版本之后的spark推崇ml包和Dataset/DataFrame
from pyspark.sql import SparkSession
fro