apache spark - 在python中导入pyspark
这是另一个从未回答过的论坛上的别人问题的副本,所以我想我会在这里重新提问,因为我有同样的问题。 (见[http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736)]
我在我的机器上正确安装了Spark,并且当使用./bin/pyspark作为我的python解释器时,能够使用pyspark模块运行python程序而不会出错。
但是,当我尝试运行常规Python shell时,当我尝试导入pyspark模块时,我收到此错误:
from pyspark import SparkContext
它说
"No module named pyspark".
我怎样才能解决这个问题? 是否需要设置环境变量以将Python指向pyspark headers / libraries / etc. 如果我的火花安装是/ spark /,我需要包含哪些pyspark路径? 或者pyspark程序只能从pyspark解释器运行?
17个解决方案
77 votes
这是一个简单的方法(如果你不打扰它如何工作!!!)
使用findspark
转到你的python shell
from pyspark import SparkContext
from pyspark import SparkConf
导入必要的模块
from pyspark import SparkContext
from pyspark import SparkConf
完成!
Suresh2692 answered 2019-07-27T06:15:28Z
45 votes
如果它打印出这样的错误:
ImportError:没有名为py4j.java_gateway的模块
请将$ SPARK_HOME / python / build添加到PYTHONPATH:
export SPARK_HOME=/Users/pzhang/apps/spark-1.1.0-bin-hadoop2.4
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
Peng Zhang 1516540 answered 2019-07-27T06:16:06Z
38 votes
原来pyspark bin是LOADING python并自动加载正确的库路径。 查看$ SPARK_HOME / bin / pyspark:
# Add the PySpark classes