我试图用Pycharm中的Spark编写一个非常简单的代码,我的操作系统是Windows 8。我一直在处理好几个问题,除了一个以外,都设法解决了。当我使用pyspark.cmd运行代码时,一切都运行得很顺利,但是我在pycharm中使用同一个代码时运气不佳。SpkkHoad变量存在一个问题,我使用以下代码修复:import sys
import os
os.environ['SPARK_HOME'] = "C:/Spark/spark-1.4.1-bin-hadoop2.6"
sys.path.append("C:/Spark/spark-1.4.1-bin-hadoop2.6/python")
sys.path.append('C:/Spark/spark-1.4.1-bin-hadoop2.6/python/pyspark')
所以现在当我导入pyspark时,一切都很好:from pyspark import SparkContext
当我想运行其余代码时,问题就出现了:logFile = "C:/Spark/spark-1.4.1-bin-hadoop2.6/README.md"
sc = SparkContext()
logData = sc.textFile(logFile).cache()
logData.count()
当我收到以下错误时:15/08/27 12:04:15 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)
java.io.IOException: Cannot run program "python": CreateProcess error=2, The system cannot find the file specified
我已经将python路径作为一个环境变量添加,并且它使用命令行正常工作,但是我无法找出这段代码的问题所在。任何帮助或评论都非常感谢。
谢谢