6.1 框架 VS 类库
- 类库:别人写好的代码,可以导入使用,例如:Pandas就是Python的类库【小规模数据集】
- 框架:可以独立运行,并提供编程结构的软件产品,例如:Spark、Hadoop【大规模数据集】
- PySpark类库:import pyspark
- bin/pyspark:应用程序,客户端程序,提供交互式的Python客户端用于写SparkAPI
6.2 什么是PySpark
PySpark:Python的运行类库
PySpark VS Spark
6.3 PySpark安装
- pip install pyspark
- conda install pyspark