使用spark-shell从本地读取文件不成功的的操作。

今天打开spark-shell 想试试好久不用的命令,想从本地读取数据,然后做一个简单的wordcount。但是就是读取不成功。代码如下:

scala 代码
val file="/home/gxg/test"
val lines = sc.textFile(file)
val wordRDD = lines.flatMap(line => line.split(" "))
val wordpair = wordRDD.map(word => (word,1))
 val result = wordpair.reduceByKey(_+_)


org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://server1.hadoop:8020/home/gxg/test
  at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287)
  at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
  at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
  at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:202)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)

在做累加的时候就报错了,这里显示要从HDFS上面去读取文件, 但是我想从本地读取文件进行计算。于是找资料,将输入的文件的加上前缀,则计算成功。

val file="file:///home/gxg/test"

至此使用spark可以从本地读取文件然后进行计算。

转载于:https://www.cnblogs.com/gxgd/p/9224935.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值