大数据开发之Spark篇----SparkSQL入门(4)

SparkSQL处理结构化数据流程

无论是SQL AST,DataFrame还会Dataset都是按照这个流程来执行的

  1. Unresolved Logical Plan 先生成一个纯粹的逻辑计划,这个时候还没和实际上的数据有任何的交互
  2. Logical Plan 这个时候和数据交互后得到一个实际的逻辑执行计划
  3. Optimized Plan 因为上一步已经和数据进行一定的交互,引擎可以在这个基础上进行一定的优化
  4. Physical Plans 在逻辑执行生成的结果上引擎将这个计划落实到多个物理执行计划了
  5. Costed Model 通过Catalyst优化器惊醒评估,在一堆的物理执行计划当中挑选一个对机器成本最低的一个
  6. RDD 生成代码并最终执行

Catalyst工作原理

在SparkSQL中,catalyst的执行过程就是有逻辑执行计划到最终RDD生成的这一部分。我们以一段最简单的SQL语句来看看过程是怎样的

select sum(v)
from (
  select
  t1.id,
  1 + 2 + t1.value as v
  from t1 join t2
  where
     t1.id = t2.id and
     t2.id > 50 * 1000) tmp;

这是一段包括了连接,自查询和一定条件筛选的SQL语句,在这个过程当中我们看看catalyst是怎么工作的。

  1. scan(t1) 和 scan(t2) 首先是执行扫描两个表
  2. filter 定义过滤条件:t1.id = t2.id and t2.id > 50000
  3. project 定义需要的字段:t1.id 1+2+t1.value as v
  4. aggregate 聚合计算:sum(v)
    如果执行这个过程引擎需要先将两个表的全量数据扫描出来,然后再将id相同的数据保留下来(这个过程设计到join,我们将在下面深入join的执行过程),然后对得到的临时表的value字段进行+1+2的执行过程,最后在此基础上对v字段进行聚合计算。
    而Catalyst优化器将会对这个逻辑执行计划进行优化,比如:谓词下压,常量值计算。
    首先,将第2步的t2.id > 50000这个过程下压到scan(t2)这个过程,这样得到的两个表(t1和t2)的数据量将会减少,然后在执行join流程的过程时计算量也将大大减少。
    接着,在得到一个临时字段的时候:1+2+t1.value as v的时候,这样的执行过程将会极大地增加cpu的计算量,我们都知道了其实就是3+t1.value了,但是引擎在执行的过程中还是会对每一条记录执行一次1+2=3的过程,所以可以直接将其优化成3+t1.value了。
    另外,如果是两个大小表之间进行join的话,还可以从CommonJoin转化成MapJoin,就是使用broadcast计算将小表当成一个广播变量发送到各个executor上面去,将执行join。这样就可以避免了shuffle过程,也就是没有了reduce的部分了。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的数据结构包括: 1. 数组:一种存储同类型数据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型数据的结构,每个节点包含数据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的数据结构,可以通过压入(push)和弹出(pop)操作进行数据的存储和取出。 4. 队列:一种先进先出(FIFO)的数据结构,可以通过入队(enqueue)和出队(dequeue)操作进行数据的存储和取出。 5. 树:一种存储具有父子关系的数据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行数据的访问和修改。 6. 图:一种存储具有节点和边关系的数据结构,可以通过广度优先搜索、深度优先搜索等方式进行数据的访问和修改。 这些数据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种数据结构都有其优缺点,下面列举一些常见的数据结构的优缺点: 数组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改数据的场合。 缺点:数组的长度是固定的,不适合存储大小不固定的动态数据,另外数组在内存中是连续分配的,当数组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除数据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当数据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值