【云星数据---Apache Flink实战系列(精品版)】：Apache Flink高级特性与高级应用021-Flink中OutFormat设置(Scala版)001

最新推荐文章于 2022-06-04 02:52:55 发布

李国华技术博客

最新推荐文章于 2022-06-04 02:52:55 发布

阅读量1.3w

点赞数

分类专栏： bigdata flink cloudcomputing bankend springcloud 文章标签： apache scala 数据 dataset

本文链接：https://blog.csdn.net/liguohuaBigdata/article/details/78580245

版权

bigdata 同时被 3 个专栏收录

187 篇文章 2 订阅

订阅专栏

cloudcomputing

183 篇文章 0 订阅

订阅专栏

flink

86 篇文章 57 订阅

订阅专栏

一、MultipleTextOutputFormat设置一

使用DataSet的key作为文件名称，将DataSet输出到多个文件中。

1.自定义MultipleTextOutputFormat

package code.book.batch.outputformat.scala

import org.apache.hadoop.io.NullWritable
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat

class MultipleTextOutputFormat001[K, V] extends MultipleTextOutputFormat[K, V] {
  /**
    * 此方法用于产生文件名称,这里将key_DateTime直接作为文件名称
    *
    * @param key   DataSet的key
    * @param value DataSet的value
    * @param name  DataSet的partition的id(从1开始)
    * @return file的name
    */
  override def generateFileNameForKeyValue(key: K, value: V, name: String): String =
   key.asInstanceOf[String]

  /**
    * 此方法用于产生文件内容中的key，这里文件内容中的key是就是DataSet的key
    *
    * @param key   DataSet的key
    * @param value DataSet的value
    * @return file的key
    */
  override def generateActualKey(key: K, value: V): K = NullWritable.get().asInstanceOf[K]

  /**
    * 此方法用于产生文件内容中的value，这里文件内容中的value是就是DataSet的value
    *
    * @param key   DataSet的key
    * @param value DataSet的value
    * @return file的value
    */
  override def generateActualValue(key: K, value: V): V = value.asInstanceOf[V]
}

2.自定义MultipleTextOutputFormat测试入口

package code.book.batch.outputformat.scala

import org.apache.flink.api.scala.hadoop.mapred.HadoopOutputFormat
import org.apache.flink.api.scala.{ExecutionEnvironment, _}
import org.apache.hadoop.fs.Path
import org.apache.hadoop.mapred.{FileOutputFormat, JobConf}
/**
  * hadoop fs -text /output/flink/MultipleTextOutputFormat/scala/001/lisi
 */
object MultipleTextOutputFormat001Test {
  def main(args: Array[String]) {

    //1.创建批处理环境
    val env = ExecutionEnvironment.getExecutionEnvironment

    //2.准备数据
    val data1 = env.fromCollection(List(("zhangsan", "120"), ("lisi", "123"),
      ("zhangsan", "309"), ("lisi", "207"), ("wangwu", "315")))

    //3.多路径输出的HadoopOutputFormat
    val multipleTextOutputFormat = new MultipleTextOutputFormat001[String, String]()
    val jobConf = new JobConf()
    val filePath = "hdfs://qingcheng11:9000/output/flink/MultipleTextOutputFormat/scala/001"
    FileOutputFormat.setOutputPath(jobConf, new Path(filePath))
    val format = new HadoopOutputFormat[String, String](multipleTextOutputFormat, jobConf)

    //4.将数据输出出去
    data1.output(format)

    //5.触发批处理执行
    env.execute()
  }
}

3.自定义MultipleTextOutputFormat执行效果

这里写图片描述

4.查看hdfs文件

这里写图片描述

李国华技术博客

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
【云星数据---Apache Flink实战系列(精品版)】：Apache Flink高级特性与高级应用021-Flink中OutFormat设置(Scala版)001

一、MultipleTextOutputFormat设置一使用DataSet的key作为文件名称，将DataSet输出到多个文件中。
复制链接

扫一扫

专栏目录