spark
cxkaa502401673
这个作者很懒,什么都没留下…
展开
-
Spark:Yarn-cluster和Yarn-client区别与联系
我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。 Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管转载 2017-12-14 13:39:16 · 258 阅读 · 0 评论 -
RDD 中foreach与foreachPartition区别
参考:http://blog.csdn.net/u013939918/article/details/60881711https://www.cnblogs.com/mfmdaoyou/p/7073861.htmlRDD.foreachPartition/foreach的操作在这个action的操作中:这两个action主要用于对每一个partition中的iterat转载 2017-12-14 13:44:45 · 3892 阅读 · 0 评论 -
源码编译Spark,Hadoop 2.6.0-cdh5.7.0 版本
1: 下载源码2:解压spark-2.2.1.tgz3: 配置环境:意思是 maven版本至少要3.3.9 ,jdk 1.8 +本人的环境 : jdk1.8.0 maven 3.3.9scala 2.114:进入spark源码目录,修改pom.xml添加 支持CDH的repositorie原创 2018-01-11 16:38:43 · 1330 阅读 · 1 评论