spark实现hadoop中获取文件名的功能

最新推荐文章于 2022-04-02 18:27:08 发布

han3ying1jun8

最新推荐文章于 2022-04-02 18:27:08 发布

阅读量447

点赞数

分类专栏： spark hadoop 文章标签： spark hadoop

spark 同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

hadoop

8 篇文章 0 订阅

订阅专栏

hadoop1版本中提供了获取文件名的功能，就是在map阶段可以获取每一行记录属于哪个文件，可以得到这个文件名，代码如下：

//获取文件名
InputSplit inputSplit=(InputSplit)context.getInputSplit();
String filename=((FileSplit)inputSplit).getPath().getName();

这是hadoop1版本提供的方法。

对于spark也可以实现这个功能，使用的方式是本地测试的代码，spark在本地执行的，代码如下：

object Mytest3 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf
    conf.setMaster("local[2]").setAppName("mytest")
    System.setProperty("hadoop.home.dir","E:\\hadoop2\\hadoop-2.6.0")
    val sc=new SparkContext(conf)

    val fileRDD=sc.hadoopFile[LongWritable, Text, TextInputFormat]("C:\\sparksplit\\*")

    val hadoopRdd = fileRDD.asInstanceOf[HadoopRDD[LongWritable, Text]]

    val fileAndLine = hadoopRdd.mapPartitionsWithInputSplit((inputSplit:InputSplit,iterator:Iterator[(LongWritable, Text)]) =>{
      val file = inputSplit.asInstanceOf[FileSplit]
      iterator.map(x=>{file.getPath.toString()+"\t"+x._2})
    } 
    )

    fileAndLine.foreach(println)
  }
}

这里要注意的是，引入的jar包不要错，错误的话，方法就会报错。引入的jar包是下面的：

import cn.wjpt.AuditLogManager
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
import org.apache.hadoop.io.Text
import org.apache.hadoop.io.LongWritable
import org.apache.spark.rdd.HadoopRDD
import org.apache.hadoop.mapred.InputSplit
import org.apache.hadoop.mapred.FileSplit
import org.apache.hadoop.mapred.TextInputFormat

这样就搞定了。

han3ying1jun8

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark实现hadoop中获取文件名的功能

hadoop1版本中提供了获取文件名的功能，就是在map阶段可以获取每一行记录属于哪个文件，可以得到这个文件名，代码如下：[code="java"]//获取文件名InputSplit inputSplit=(InputSplit)context.getInputSplit();String filename=((FileSplit)inputSplit).getPath().getName...
复制链接

扫一扫

专栏目录