java hdfs 2.0_java.io.IOException：不完整的HDFS URI，没有主机：在AWS上运行pyspark

最新推荐文章于 2022-05-11 01:28:15 发布

weixin_39957068

最新推荐文章于 2022-05-11 01:28:15 发布

阅读量320

点赞数

文章标签： java hdfs 2.0

本文链接：https://blog.csdn.net/weixin_39957068/article/details/114191616

版权

在AWS上初次使用时，尝试通过pyspark读取存储在AWS上的文件，遇到了java.io.IOException：不完整的HDFS URI，没有主机的错误。尝试了不同URI格式，如'hdfs:///:/home/ubuntu/artist_stuff/_artist_data'和'hdfs:////home/ubuntu/artist_stuff/_artist_data'，但均失败。错误日志显示问题出在HDFS URI的主机缺失。使用'file:///home/ubuntu/artist_stuff/_artist_data'则引发InvalidInputException：输入路径不存在。

摘要由CSDN通过智能技术生成

我是第一次使用AWS，并且已将我的文件存储在AWS上 . 到目前为止，这是我尝试用来读取文件的内容 .

artist_data = sc.textFile('hdfs:///:/home/ubuntu/artist_stuff/_artist_data')

还尝试过：

artist_data = sc.textFile('hdfs:home/ubuntu/artist_stuff/_artist_data')

然后我就做了我的RDD：

artist_data = artist_data.map(lambda line:line.encode("ascii", "ignore").strip().split()).filter(lambda line: len(line) > 1)

每次运行artist_data.collect()时都会出现此错误 .

当我刚尝试 sc.textFile("file:///home/ubuntu/artist_stuff/_artist_data") 时，我得到一个不同的错误：InvalidInputException：输入路径不存在：file：/ home / ubuntu / Assignment_2 / _artist_data我猜是由于分区或其他东西而导致的错误 . 因此我选择将其编码为 hdfs:///

这是完整的错误 - 日志：

()最近的Py4JJavaError Traceback(最近一次调用)

----> 1 artist_data.collect()

/home/ubuntu/spark-2.0.0-bin-hadoop2.7/python/pyspark/rdd.py in collect(sel

最低0.47元/天解锁文章

weixin_39957068

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java hdfs 2.0_java.io.IOException：不完整的HDFS URI，没有主机：在AWS上运行pyspark

我是第一次使用AWS，并且已将我的文件存储在AWS上 . 到目前为止，这是我尝试用来读取文件的内容 .artist_data = sc.textFile('hdfs:///:/home/ubuntu/artist_stuff/_artist_data')还尝试过：artist_data = sc.textFile('hdfs:////home/ubuntu/artist_stuff/_artist...
复制链接

扫一扫