py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
异常的解决办法:
通常是新手在刚开始使用 pyspark 的时候,对于 spark 文件读取路径不太理解导致的异常
pyspark 读取本地文件和HDFS文件的方式:
'''# hdfs目录格式如下'''
input_data_path = "hdfs://localhost:9002/input/2017-11*"
'''# 本地文件目录'''
input_data_path="file:///Users/a6/Downloads/input_local/2017-09*"
print input_data_path
result = sc.textFile(input_data_path)
参考资料:
1、py4j.protocol.Py4JJavaError错误
https://blog.csdn.net/Eat_shopping/article/details/78251442
2、Spark中加载本地(或者hdfs)文件以及 spark使用SparkContext实例的textFile读取多个文件夹(嵌套)下的多个数据文件
https://blog.csdn.net/helloxiaozhe/article/details/78480108