Spark
Spark相关
专注于大数据技术栈
记录点点滴滴
展开
-
Spark Shuffle详解
Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存,磁盘IO的消耗。通常shuffle分为两部分:Map阶段的数据准备和Reduce阶段的数据拷贝处理。一转载 2021-03-05 17:16:58 · 140 阅读 · 0 评论 -
Spark RDD转换为DataFrame
#构造case class,利用反射机制隐式转换scala>importspark.implicits._scala> val rdd= sc.textFile("input/textdata.txt")scala>caseclass Person(id:Int,name:String)scala> valdf= rdd.map(_.split(...原创 2020-02-13 10:55:04 · 166 阅读 · 0 评论 -
troubleshooting 之解决yarn-cluster模式的JVM栈内存溢出无法执行
sparkCluster模式提交方式spark-submit脚本提交yarn-cluster模式,首先由脚本,提交提交spark Application 到ResourceManager上,然后ResourceManager找到一个NodeManager启动ApplicationMaster进程,这时,我们的NodeManager就会启动一个ApplicationMaster进程,这个就相...原创 2020-03-19 18:07:06 · 187 阅读 · 0 评论