环境:ubuntu12.04 spark 2.1.0
博主使用pyspark启动spark,按照教程运行如下代码:
lines = sc.textFile('README.md')
lines.conut()
spark报错,py4j.protocol.Py4JJavaError
原来spark默认是从hdfs上都文件的,博主的文件存放在本地路径下,因此需要改为:
lines = sc.textFile("file://mydir/README.md") #mydir是你本地文件的路径
lines.count()