![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
linhao19891124
这个作者很懒,什么都没留下…
展开
-
spark内核源码学习-RDD基础篇
1. RDD基本概念RDD,英文全称:resilient distributed dataset,中文名:弹性分布式数据集。它是可以并行处理的,错误容忍性强的数据集合。RDD是只读的,不能修改里面的数据,当对RDD使用map等转换操作后,会生成新的RDD。在Spark中,我们可以通过SparkContext的parallelize方法,把一个普通集合创建为一个RDD,也可以通过引用转载 2017-06-04 20:59:03 · 569 阅读 · 0 评论 -
Spark核心RDD:combineByKey函数详解
为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view转载 2017-08-27 20:28:43 · 224 阅读 · 0 评论 -
reduceByKey和groupByKey区别与用法
在Spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对pair RDD这样的特殊形式,spark中定义了许多方便的操作,今天主要介绍一下reduceByKey和groupByKey,转载 2017-08-27 17:24:34 · 1184 阅读 · 0 评论 -
RDD Join 性能调优
阅读本篇博文时,请先理解RDD的描述及作业调度:[《深入理解Spark 2.1 Core (一):RDD的原理与源码分析 》](http://blog.csdn.net/u011239443/article/details/53894611#t16)Join数据是我们在Spark操作中的很重要的一部分。Spark Core 和Spark SQL的基本类型都支持join操作。虽然join很常转载 2017-08-20 19:38:04 · 295 阅读 · 0 评论 -
Spark Sort-Based Shuffle内幕彻底解密
Spark Sort-Based Shuffle内幕彻底解密本期内容:1 为什么使用Sort-Based Shuffle2 Sort-Based Shuffle 实战3 Sort-Based Shuffle 内幕4 Sort-Based Shuffle的不足一、为什么需要Sort Based Shu转载 2017-08-20 22:00:39 · 286 阅读 · 0 评论 -
Spark1.5堆内存分配
Spark1.5堆内存分配这是spark1.5及以前堆内存分配图下边对上图进行更近一步的标注,红线开始到结尾就是这部分的开始到结尾spark 默认分配512MB JVM堆内存。出于安全考虑和避免内存溢出,Spark只允许我们使用堆内存的90%,这在spark的spark.storage.safetyFraction 参数中配置着。也许你听说的spar转载 2017-08-01 16:06:20 · 258 阅读 · 0 评论 -
Spark配置参数说明
http://spark-config.readthedocs.io/en/latest/index.html转载 2017-08-01 11:31:53 · 257 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三转载 2017-06-05 22:14:06 · 375 阅读 · 0 评论 -
spark Job执行流程
RDD的action操作会引发job的执行。abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Serializable with LoggingRDD有两个入参原创 2017-07-20 22:36:48 · 399 阅读 · 0 评论 -
Spark编程指南--Shuffle
Certain operations within Spark trigger an event known as the shuffle. The shuffle is Spark’s mechanism for re-distributing data so that it’s grouped differently across partitions. This typically invol翻译 2017-07-11 21:27:10 · 270 阅读 · 0 评论 -
Spark编程指南
Understanding closures 理解闭包One of the harder things about Spark is understanding the scope and life cycle of variables and methods when executing code across a cluster. RDD operations that modify var翻译 2017-07-10 22:55:43 · 424 阅读 · 0 评论 -
spark学习起步(四)--部署方式
spark支持以下几种部署模式:1,单机模式2,伪集群模式3,独立集群4,yarn集群5,mesos不同的部署方式,差异主要体现在运行资源的管理和分配以及容错处理上单机模式:Driver,Master,Worker,Executor都运行在 同一个JVM进程之中伪集群部署:local-clustermaster和worker运行于同一个jvm原创 2017-06-08 21:51:17 · 303 阅读 · 0 评论 -
Spark学习起步(二):sparkContext
sparkshell跟sparkcontext调度关系:spark-shell -》 spark-submit -》 spark-class -》sparksubmit.main -》SparkILoop -》 createSparkContextsparkcontext是进行spark应用开发的主要接口,是spark上传应用与底层实现的中转站spark初始化主要:原创 2017-06-04 17:12:08 · 1572 阅读 · 0 评论 -
spark学习起步(一):基本概念
RDD:弹性分布式数据集主要特点:1,数据全集被分割成多个正相交的数据子集,每个数据子集可以被派发到任一计算节点进行处理2,计算的中间结果会被保存。同一个计算结果会被保存在多,个计算节点3,如果某一个数据子集在处理中出现问题,该数据子集的处理会被重新调度进而重新处理。RDD的操作:转换,action转换是一个规划的过程,并不运算action才是真正运行提交j原创 2017-06-04 15:42:24 · 372 阅读 · 0 评论 -
spark学习起步(三)--作业提交
一个application运行期间可以执行多个spark job(作业),有多少作业是由多少个action操作的rdd决定。几次action,就有几个job每个job 分为多个stage,stage划分是依据shuffleDependency(宽依赖)。每次遇到一个,就要新产生一个stage。shuffle类算子会产生新的stage。从RDD角度看,ShuffledRDD,CoGrou原创 2017-06-06 23:15:00 · 334 阅读 · 0 评论 -
Spark On YARN内存和CPU分配
转载自:http://blog.csdn.net/fansy1990/article/details/54314249本篇博客参考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本:CDH:5.7.2,JDK:1.7;问题描述:在使用Spark转载 2017-11-03 14:36:09 · 533 阅读 · 0 评论