spark实现hadoop中获取文件名的功能

最新推荐文章于 2024-07-29 18:32:05 发布

cihongmo6452

最新推荐文章于 2024-07-29 18:32:05 发布

阅读量231

点赞数

文章标签：大数据 java

原文链接：https://my.oschina.net/sniperLi/blog/804658

版权

hadoop1版本中提供了获取文件名的功能，就是在map阶段可以获取每一行记录属于哪个文件，可以得到这个文件名，代码如下：

Java代码

收藏代码

这是hadoop1版本提供的方法。

对于spark也可以实现这个功能，使用的方式是本地测试的代码，spark在本地执行的，代码如下：

Java代码

收藏代码

object Mytest3 {
def main(args: Array[String]): Unit = {
val conf=new SparkConf
conf.setMaster("local[2]").setAppName("mytest")
System.setProperty("hadoop.home.dir","E:\\hadoop2\\hadoop-2.6.0")
val sc=new SparkContext(conf)
val fileRDD=sc.hadoopFile[LongWritable, Text, TextInputFormat]("C:\\sparksplit\\*")
val hadoopRdd = fileRDD.asInstanceOf[HadoopRDD[LongWritable, Text]]
val fileAndLine = hadoopRdd.mapPartitionsWithInputSplit((inputSplit:InputSplit,iterator:Iterator[(LongWritable, Text)]) =>{
val file = inputSplit.asInstanceOf[FileSplit]
iterator.map(x=>{file.getPath.toString()+"\t"+x._2})
}
)
fileAndLine.foreach(println)
}
}