Spark2.2 job触发流程原理剖析与源码分析

最新推荐文章于 2022-04-14 13:37:19 发布

生命不息丶折腾不止

最新推荐文章于 2022-04-14 13:37:19 发布

阅读量339

点赞数 1

分类专栏： spark 文章标签： spark hadoop 源码

本文链接：https://blog.csdn.net/leen0304/article/details/78625616

版权

本文通过wordCount实例深入解析Spark2.2作业的触发流程。从lines.textFile开始，详细阐述了textFile算子、flatMap、map、reduceByKey操作的执行过程，并最终通过foreach打印结果。同时，文章涉及到HadoopRDD在Spark中的应用。

摘要由CSDN通过智能技术生成

文章以wordCount案例展开：

(1) val lines = sc.textFile(“”)

textFile()算子，返回元组对，其中，K为每一行的偏移量offset ,V为每一行的文本

  /**
   * 从HDFS上读取一个文本文件，一个本地文件系统(可用在所有节点)
   * 或者任何hadoop支持的文件系统的URI，最终返回字符串形式的RDD
   *
   * @param path 在受支持的文件系统上的文本文件路径
   * @param minPartitions 建议产生的RDD的最小分区数
   * @return 文本文件行的RDD
   */
  def textFile(
      path: String,
      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {
    assertNotStopped()
    /**
     * hadoopFile()方法 返回一个HadoopRDD extends RDD[(K, V)]
     * 其中，K为每一行的偏移量offset ,V为每一行的文本
     * map()处理，取出V 返回MapPartitionsRDD
     */
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],
      minPartitions).map(pair => pair._2.toString).setName(path)
  }

hadoopFile()方法，返回(K,V)元组的HadoopRDD