Spark多文件输出(MultipleTextOutputFormat)

最新推荐文章于 2021-10-31 17:39:15 发布

翔飞天宇

最新推荐文章于 2021-10-31 17:39:15 发布

阅读量2.3k

点赞数

分类专栏： Spark 文章标签： spark 函数 RDD算子

Spark 专栏收录该内容

39 篇文章 0 订阅

订阅专栏

因为Spark内部写文件方式其实调用的都是Hadoop那一套东西，所以我们也可以通过Spark实现多文件输出。不过遗憾的是，Spark内部没有多文件输出的函数供大家直接调用，值得欣慰的是，我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个OutputFormat类即可，代码如下：

[plain] view plain copy print ?

import org.apache.hadoop.io.NullWritable
import org.apache.spark._
import org.apache.spark.SparkContext._
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {
override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String =
key.asInstanceOf[String]
}
object Split {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("SplitTest")
val sc = new SparkContext(conf)
sc.parallelize(List(("w", "www"), ("b", "blog"), ("c", "com"), ("w", "bt")))
.map(value => (value._1, value._2 + "Test"))
.partitionBy(new HashPartitioner(3))
.saveAsHadoopFile("/iteblog", classOf[String], classOf[String],
classOf[RDDMultipleTextOutputFormat])
sc.stop()
}
}

　　RDDMultipleTextOutputFormat类中的generateFileNameForKeyValue函数有三个参数，key和value就是我们RDD的Key和Value，而name参数是每个Reduce的编号。本例中没有使用该参数，而是直接将同一个Key的数据输出到同一个文件中。执行：

[plain] view plain copy print ?

bin/spark-submit --master yarn-cluster
--class Split ./iteblog-1.0-SNAPSHOT.jar

　　然后我们可以看到在HDFS上输出的文件列表如下：

[plain] view plain copy print ?

[iteblog@master ]$ bin/hadoop fs -ls /iteblog
Found 4 items
-rw-r--r-- 3 iteblog hadoop2 0 2015-03-09 11:26 /iteblog/_SUCCESS
-rw-r--r-- 3 iteblog hadoop2 11 2015-03-09 11:26 /iteblog/b
-rw-r--r-- 3 iteblog hadoop2 10 2015-03-09 11:26 /iteblog/c
-rw-r--r-- 3 iteblog hadoop2 19 2015-03-09 11:26 /iteblog/w
[iteblog@master ]$ bin/hadoop fs -cat /iteblog/w
w btTest
w wwwTest

　　从上面的输出可以看出key为w的记录全部输出到文件名为w的文件中去了。

翔飞天宇

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark多文件输出(MultipleTextOutputFormat)

因为Spark内部写文件方式其实调用的都是Hadoop那一套东西，所以我们也可以通过Spark实现多文件输出。不过遗憾的是，Spark内部没有多文件输出的函数供大家直接调用，值得欣慰的是，我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个OutputFormat类即可，代码如下：[plain] view plain copy
复制链接

扫一扫