Spark 采坑系列（一）集群环境读取本地文件的坑

最新推荐文章于 2023-04-14 18:07:58 发布

WWWWWWWWolf

最新推荐文章于 2023-04-14 18:07:58 发布

阅读量1.8k

点赞数 1

文章标签：大数据 scala 运维

原文链接：https://my.oschina.net/u/3687664/blog/2876013

版权

2019独角兽企业重金招聘Python工程师标准>>>

Spark 采坑系列

今天在网上看了一个例子，Spark启动后读取文件并计算的例子，自己在按照网上方法使用的时候意外菜了坑。

首先，我将3台虚拟机的Spark集群以及Hadoop集群启动。

然后我在其中一个服务器上编辑了一个文本，命名sparkFirst，内容如下：

hello spark

hello world

hello spark!

保存后，存在了其中一台服务器上，然后我开始试验：

首先，执行spark的控制台命令spark-shell

image2018-9-19_18-19-5.png?version=1&modificationDate=1537352345000&api=v2

然后，读取文本，并执行计算行数的命令，结果报错：

scala> val lines=sc.textFile("/opt/soft/hadoop/sparkFirst")

lines: org.apache.spark.rdd.RDD[String] = /opt/soft/hadoop/sparkFirst MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count()

报错如图

image2018-9-19_18-19-26.png?version=1&modificationDate=1537352366000&api=v2

然后开始上网找原因，网上说如果Spark采用集群模式读取本地文件，必须保证每个集群下都有相同的问题件，否则就会报找不到文件的错误：

WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 192.168.194.130, executor 1): java.io.FileNotFoundException: File file:/opt/soft/hadoop/sparkFirst does not exist

并且，很多人建议采用hdfs的方式加载文件，这样就不会出现刚才的问题了，好用并且高大上。既然这样，我们就来试一试，把刚才的文件上传到hdfs中：

image2018-9-19_18-19-48.png?version=1&modificationDate=1537352387000&api=v2

我们将sparkFirst 文件上传到了hdfs的根目录（注意最后的 .），然后我们将加载文件的路径改为hdfs路径并再次尝试。

image2018-9-19_18-20-12.png?version=1&modificationDate=1537352411000&api=v2

最后成功！

转载于:https://my.oschina.net/u/3687664/blog/2876013

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。