[已解决]Spark执行wordcount找不到文件

雷神乐乐

已于 2024-04-23 10:55:43 修改

阅读量401

点赞数

分类专栏： # 异常解决文章标签： spark scala 大数据

于 2023-03-31 00:45:00 首次发布

本文链接：https://blog.csdn.net/Helen_1997_1997/article/details/129765456

版权

异常解决专栏收录该内容

11 篇文章 0 订阅

订阅专栏

在/opt/soft/spark-local/data目录下创建word.txt，文件中随意输入一些单词，bin/spark-shell开启spark的shell界面

执行下面的命令：

scala> sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

报错信息如下：

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://lxm148:9000/user/root/data/word.txt
  at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:297)
  at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:239)
  at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:325)
  at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:205)
  at org.apache.spark.rdd.RDD.$anonfun$partitions$2(RDD.scala:276)
  at scala.Option.getOrElse(Option.scala:189)

显然，该命令是去HDFS上找这个文件了，因为我们运行的是本地文件，所以要加上全路径，但是加上后还是报错：

scala> sc.textFile("/opt/soft/spark-local/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://lxm148:9000/opt/soft/spark-local/data/word.txt
  at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:297)
  at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:239)
  at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:325)
  at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:205)
  at org.apache.spark.rdd.RDD.$anonfun$partitions$2(RDD.scala:276)
  at scala.Option.getOrElse(Option.scala:189)

在网上找到了解决办法：

1.当读取本地文件时，需要在文件全路径前加file://

scala> sc.textFile("file:///opt/soft/spark-local/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res2: Array[(String, Int)] = Array((hello,3), (java,1), (world,1), (spark,1))

2.当读取HDFS上的文件时，需要HDFS上的全路径

scala> sc.textFile("/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res3: Array[(String, Int)] = Array((scala,1), (Hello,1), (hello,3), (java,1), (world,1), (spark,1))