![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
虎钳
这个作者很懒,什么都没留下…
展开
-
spark join
Spark join有两种方式:map-side join和reduce-side join 1、Map-side Join使用场景是一个大表和一个小表的连接操作,其中,“小表”是指文件足够小,可以加载到内存中。该算法可以将join算子执行在Map端,无需经历shuffle和reduce等阶段,因此效率非常高。 在Hadoop MapReduce中, map-side join是借助Dist...2016-01-20 10:08:06 · 452 阅读 · 0 评论 -
spark RDD
RDD是Spark中对数据和计算的抽象,是Spark中最核心的概念,它表示已被分片(partition),不可变的并能够被并行操作的数据集合。 对RDD的操作分为两种transformation和action。Transformation操作是通过转换从一个或多个RDD生成新的RDD。Action操作是从RDD生成最后的计算结果。 在Spark中,提供丰富的transformation和a...原创 2016-01-20 10:18:06 · 141 阅读 · 0 评论 -
spark性能调优
注:以下内容摘自:http://segmentfault.com/blogs Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。 分布式计算引擎在调优方面有四个主要关注方向,分别是CPU、内存、网络开销和I/O,其具体调优目标如下...原创 2016-01-21 09:11:11 · 117 阅读 · 0 评论