Spark
文章平均质量分 92
renqHIT
这个作者很懒,什么都没留下…
展开
-
《SparkSQL内核剖析》【基础篇】
一、从SQL到RDD1. 一个简单的例子样例数据 test.json{"name":"上海滩","singer":"叶丽仪","album":"香港电视剧主题歌","path":"mp3/shanghaitan.mp3"原创 2018-09-27 23:41:48 · 3391 阅读 · 0 评论 -
《SparkSQL内核剖析》【物理计划篇】
一、概览物理计划是将Spark SQL生成的逻辑算子树映射成物理算子树,并将逻辑计划的信息映射到Spark Core模型中的RDD、Transformation、Action的过程。生成物理计划后,一条SQL语句就变成了可以执行的Spark任务。将逻辑计划转换成物理计划的抽象类叫做QueryPlanner,它定义了转换的框架:首先得到一系列候选物理计划、然后自底向上替换算子树节点的物理计划、最后...原创 2019-07-04 00:36:01 · 1194 阅读 · 0 评论 -
Spark SQL 之 Join 实现
Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。1. SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQ...转载 2019-04-27 01:07:43 · 390 阅读 · 0 评论 -
《SparkSQL内核剖析》【Thrift Server篇】
前两天,我司开发环境Zeppelin在跑一个统计任务时,挂了,报错信息如下:TODO: 此处应有截图我推测是Thrift Server内存不足,导致通信失败了,具体原因没有深究。然而,Thrift这个看似熟悉却又陌生的词汇吸引了我的注意力。碰巧今天在学习《Spark内核剖析》第10章,Spark SQL连接Hive时,又一次提到了Thrift,于是便有了此文。什么是ThriftThrift...原创 2019-07-07 01:46:36 · 1005 阅读 · 0 评论 -
《SparkSQL内核剖析》【Aggregation篇】
这篇文章讨论Spark SQL中聚合操作相关的内容。原创 2019-07-07 23:43:05 · 1409 阅读 · 0 评论