我是第一次使用AWS,并且已将我的文件存储在AWS上 . 到目前为止,这是我尝试用来读取文件的内容 .
artist_data = sc.textFile('hdfs:///:/home/ubuntu/artist_stuff/_artist_data')
还尝试过:
artist_data = sc.textFile('hdfs:home/ubuntu/artist_stuff/_artist_data')
然后我就做了我的RDD:
artist_data = artist_data.map(lambda line:line.encode("ascii", "ignore").strip().split()).filter(lambda line: len(line) > 1)
每次运行artist_data.collect()时都会出现此错误 .
当我刚尝试 sc.textFile("file:///home/ubuntu/artist_stuff/_artist_data") 时,我得到一个不同的错误:InvalidInputException:输入路径不存在:file:/ home / ubuntu / Assignment_2 / _artist_data我猜是由于分区或其他东西而导致的错误 . 因此我选择将其编码为 hdfs:///
这是完整的错误 - 日志:
()最近的Py4JJavaError Traceback(最近一次调用)
----> 1 artist_data.collect()
/home/ubuntu/spark-2.0.0-bin-hadoop2.7/python/pyspark/rdd.py in collect(sel