![](https://img-blog.csdnimg.cn/20191008095631141.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark
hynanan
这个作者很懒,什么都没留下…
展开
-
【1.3】spark RDD的持久化
1.RDD持久化的优点 Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(action)变得更加迅速(通常快10倍)。缓存是用Spark构建迭代算法的关键。RDD的缓存能够在第一次计算完成后,将计算结果保...转载 2019-02-14 17:02:39 · 201 阅读 · 0 评论 -
【1.4】spark checkpoint的解析
checkpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复;另外一块是应用在spark streaming中,使用checkpoint用来保存DStreamGraph以及相关配置信息,以便在Driver崩溃重启的时候能够接着之前进度继续进行处理...转载 2019-02-14 17:06:10 · 90 阅读 · 0 评论 -
【1.5】spark 持久化和checkpoint的区别
在Spark 的持久化使用中,我们会将一些经常使用到的数据进行持久化,比如使用cache()或者persist()方法进行持久化操作,但是当某个节点或者executor挂掉之后,持久化的数据会丢失,因为我们的数据是保存在内存当中的,这时就会重新计算RDD,如果某个之前的RDD需要大量的计算时间,这时将会浪费很多时间,因此,我们有时候需要使用checkpoint操作来将一些数据持久化可容错文件系统中...转载 2019-02-14 17:17:59 · 236 阅读 · 0 评论 -
【1.6】spark 运行模式
Spark运行模式可以分为三类:本地模式,独立模式,Spark on YARN/Mesos。1. 本地模式在本地模式下,Spark应用程序以多线程形式直接在本地运行,方便程序调试。 本地模式有可以分为以下三种:local:只启动一个executorlocal[k]:启动k个executorlocal[*]:启动和CPU数相同的executor在前面的spark-shell中日志...转载 2019-02-14 17:34:31 · 95 阅读 · 0 评论 -
【1.1】spark on yarn 模式
1、基于yarn-client模式(1)Hadoop集群启动,NodeManager(NM)向ResourceManager(RM)通信,汇报各自资源,RM掌握集群资源(2)client上提交spark应用,同时启动Driver,client向RM申请资源,启动ApplicationMaster(AM)(3)RM在随机选择集群中的一个NM,来启动AM,AM向RM申请资源启动Exec...转载 2019-02-14 10:50:05 · 126 阅读 · 0 评论 -
【1.2】创建spark程序的步骤
Spark代码流程(1)创建SparkConf对象 可以设置Applicationname、可以设置运行模式及资源需求。(2)创建SparkContext对象(3) 基于Spark的上下文创建一个RDD,对RDD进行处理(4)应用程序中要有Action类算子来触发Transformation类算子执行。(5)关闭Spark上下文对象SparkContext。-...转载 2019-02-14 11:19:48 · 843 阅读 · 0 评论 -
【1.7】spark 数据本地化
数据本地化对于Spark Job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的,那么性能当然会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外一方的机器上。通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去,速度要快得多,因为代码比较小。Spark也正是基于这个数据本地化的原则来构建task调度算法的。数据本地化,指的是,数据离计算它的代码有多近。基于...转载 2019-02-20 22:33:21 · 115 阅读 · 0 评论