RDD Pipeline 源码图解

  在面试候选人Spark相关知识点时, 我总喜欢问这么一个问题:

      如果一个源数据有1亿行, 对这个源数据分别做map()操作和flatMap()操作, 过程是下面描述的那种流程, 为什么?

        1 每读1条数据, 顺次执行map()和flatMap(), 再读取下一条;

        2 对1亿条数据遍历做完map()后, 然后再重新读取一遍这1亿条数据, 做flatMap()操作.

   意外的是, 很多候选人能说出同一个stage的RDD变换, 是一个pipeline操作; 但是对于上面的选择题,基本都表现地非常迟疑, 很少能做出正确的选择, 并说出原因.

   上面的答案1是正确的, 原因请见下面的分析.

   设有这么一个连续的变换, 会经过sc.textFile() -> map() -> filter() -> mapPartitions() -> flatMap():

sc.txtFile("1.txt").map(_ + 1).filter(_ > 0).mapPartitions{
    iter => {
        dbConnection.open();
        iter.map{
            val result = _ + 2
  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值