51:Spark中的新解析引擎Catalyst源码SQL最终转化为RDD具体实现

55 篇文章 0 订阅
55 篇文章 0 订阅

本期内容:

1.  框架与RDD

2. Physical Plan与RDD


从技术角度,越底层和硬件偶尔越高,可动弹的空间越小,而越高层,可动用的智慧是更多。Catalyst就是个高层的智慧。

Catalyst已经逐渐变成了所有Spark框架的解析优化引擎,RDD是通用抽象的数据结果,RDD+Catalyst就构成了Spark的新底层。Catalyst是在RDD基础上进行封装,一旦优化了Catalyst,所有的子框架就都得到了优化。

执行过程

在昨天,我们已经看到SparkPlan会通过prepareForExecution最终完成转换RDD的操作。
Snip20160728_9

其实际触发需要一个action级别的操作,让我们看一下collect这个action方法。
Snip20160728_18
其执行会分为几步:

  • 调用execute方法,返回RDD,会执行具体的doPrepare和doExecute。

Snip20160728_15

  • 这里我们可以非常简单的看到一个真相,做了一个collect操作,这是RDD的方法

Snip20160728_16

  • 在外面调用了conveter方法。
    Snip20160728_17

  • 其核心就是把catalyst的类型变成Scala的类型,从而完成了数据的输出。
    Snip20160728_12

小结

至此,我们已经过滤了数据从SQL输入到数据输出的完整过程。

语句流程:
SQL语句 --> 调用sqlparse --> unresolved logical plan
--> 调用analyzer --> resovled logical plan
--> 调用optimizer --> optimized logical plan
--> 调用sparkPlanner --> sparkPlan
--> 调用prepareForExecution --> prepared sparkplan

执行流程:
sparkplan --> 调用execute --> RDD
--> 调用converter --> Scala数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值