Spark算子[19]：saveAsHadoopFile、saveAsNewAPIHadoopFile 源码实例详解

最新推荐文章于 2021-05-30 19:00:35 发布

生命不息丶折腾不止

最新推荐文章于 2021-05-30 19:00:35 发布

阅读量1.3w

点赞数 1

分类专栏： spark 文章标签： spark hadoop api 源码实例

本文链接：https://blog.csdn.net/leen0304/article/details/78854530

版权

本文详细介绍了Spark中的saveAsHadoopFile和saveAsNewAPIHadoopFile算子，这两个算子分别用于使用老版和新版Hadoop API将PairRDD数据保存到HDFS。saveAsHadoopFile支持老版API，每个分区输出一个文件，而saveAsNewAPIHadoopFile则采用新版API。文中提供了源码分析和实例演示，展示了如何设置输出键值类及压缩格式。

摘要由CSDN通过智能技术生成

saveAsHadoopFile、saveAsNewAPIHadoopFile两个算子来源于PairRDDFunctions。

saveAsHadoopFile

saveAsHadoopFile是将RDD存储在HDFS上的文件中，支持老版本Hadoop API。
可以指定outputKeyClass、outputValueClass以及压缩格式。
每个分区输出一个文件。

源码

/** saveAsHadoopFile */

def saveAsHadoopFile(
    path: String,
    keyClass: Class[_],
    valueClass: Class[_],
    outputFormatClass: Class[_ <: OutputFormat[_, _]],
    conf: JobConf = new JobConf(self.context.hadoopConfiguration),
    codec: Option[Class[_ <: CompressionCodec]] = None): Unit = self.withScope {
  //1、 配置hadoopConf
  val hadoopConf = conf
  hadoopConf.setOutputKeyClass(keyClass)
  hadoopConf.setOutputValueClass(valueClass)
  conf.setOutputFormat(outputFormatClass)
  //2、 配置压缩
  for (c <- codec) {
    hadoopConf.setCompressMapOutput(true)
    hadoopConf.set("mapred.output.compress", "true")
    hadoopConf.setMapOutputCompressorClass(c)
    hadoopConf.set("mapred.output.compression.codec", c.getCanonicalName)
    hadoopConf.set("mapred.output.compression.type", CompressionType.BLOCK.toString)
  }

  // Use configured output committer if already set
  if (conf.getOutputCommitter == null) {
    hadoopConf.setOutputCommitter(classOf[FileOutputCommitter])
  }

  // 如果推测执行开启，并且输出提交类名包含“Direct”，
  // 我们应该警告用户，如果他们使用的是直接输出提交者，他们可能会丢失数据。
  val speculationEnabled = self.conf.getBoolean("spark.speculation", false)
  val outputCommitterClass = hadoopConf.get("mapred.output.committer.class", "")