如何将PySpark导入Python
问题1、ImportError: No module named pyspark
现象:
- 已经安装配置好了PySpark,可以打开PySpark交互式界面;
- 在Python里找不到pysaprk。
解决方法:
a.使用findspark
- 使用pip安装findspark:
pip install findspark
; - 在py文件中引入findspark:
>>> import findspark
; >>> findspark.init()
;导入你要使用的pyspark库:
>>> from pyspark import *
。- 优点:简单快捷
- 缺点:治标不治本,每次写一个新的Application都要加载一遍findspark
b.把预编译包中的Python库文件添加到Python的环境变量中
export SPARK_HOME=你的PySpark目录
export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build: