![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
bbb5b555
这个作者很懒,什么都没留下…
展开
-
Spark相关术语
[align=left][size=x-large]RDD[/size][/align] 全称为Resilient Distributed Dataset,弹性分布式数据集。 就是分布在集群节点上的数据集,这些集合可以用来进行各种操作,能实现MapReduce不擅长的计算工作(比如迭代式、交互式和流式)。最重要的一点是,某个操作计算后的数据集可以缓存在内存中,然后给其他计算使用,这种在...2016-05-25 19:18:23 · 84 阅读 · 0 评论 -
RDD简介
从源码来看,RDD是被定义为了一个抽象基类,里面定义了像compute(计算分区),getPartitions(获取分片),getDependencies(获取依赖)等抽象函数及一系列基本函数(catch,persist,checkpointRDD)。然后具体的像 jdbcRDD, HadoopRDD, ShuffleRDD 等都继承自RDD并有份自己的实现。 [b][size=...原创 2016-07-25 19:38:54 · 142 阅读 · 0 评论 -
SparkSql 字节码生成技术
[size=large]以具体的SQL语句 select a+b fromtable 为例进行说明,下面是它的解析过程:[/size] [size=large][b]1.调用虚函数Add.eval(),需确认Add两边数据类型 2.调用虚函数a.eval(),需要确认a的数据类型 3.确认a的数据类型是int,装箱 4.调用虚函数b.eval(),需...2016-08-01 11:25:39 · 411 阅读 · 0 评论 -
Spark资料
test Spark SQL Catalyst源码分析之Optimizer [url]http://blog.csdn.net/oopsoom/article/details/38121259[/url] //spark 2.0优化规则 [url]http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f...原创 2016-08-10 19:06:42 · 149 阅读 · 0 评论