Spark2.2 job触发流程原理剖析与源码分析

本文通过wordCount实例深入解析Spark2.2作业的触发流程。从lines.textFile开始,详细阐述了textFile算子、flatMap、map、reduceByKey操作的执行过程,并最终通过foreach打印结果。同时,文章涉及到HadoopRDD在Spark中的应用。
摘要由CSDN通过智能技术生成

文章以wordCount案例展开:


(1) val lines = sc.textFile(“”)

textFile()算子,返回元组对,其中,K为每一行的偏移量offset ,V为每一行的文本

  /**
   * 从HDFS上读取一个文本文件,一个本地文件系统(可用在所有节点)
   * 或者任何hadoop支持的文件系统的URI,最终返回字符串形式的RDD
   *
   * @param path 在受支持的文件系统上的文本文件路径
   * @param minPartitions 建议产生的RDD的最小分区数
   * @return 文本文件行的RDD
   */
  def textFile(
      path: String,
      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {
    assertNotStopped()
    /**
     * hadoopFile()方法 返回一个HadoopRDD extends RDD[(K, V)]
     * 其中,K为每一行的偏移量offset ,V为每一行的文本
     * map()处理,取出V 返回MapPartitionsRDD
     */
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],
      minPartitions).map(pair => pair._2.toString).setName(path)
  }

hadoopFile()方法,返回(K,V)元组的HadoopRDD

  /*
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生命不息丶折腾不止

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值