Spark
文章平均质量分 69
介绍spark相关的内容
浅谈_
这个作者很懒,什么都没留下…
展开
-
reduceByKey和groupByKey性能分析比较
reduceByKey相较与普通的shuffle操作一个显著的特点就是会进行map端的本地聚合,map端会先在本地的数据进行Combiner操作,然后将数据写入给下一个stage的每个task创建的文件中,也就是在map端,对每一个key对应的value,执行reduceByKey算子函数,reduceByKey算子的执行过程如图所示使用reduceByKey对性能的提升如下:本地聚合后,在map端的数据量变少,减少了磁盘IO,也减少了对磁盘空间的占用; 本地聚合后,下一个stage拉取.原创 2020-05-26 10:23:27 · 1053 阅读 · 0 评论 -
spark submit主要参数介绍
Yarn --master 值为yarn --deploy-mode 部署模式,运行driver进程在客户端还是集群上,默认为客户端(client),可以指定为cluster --class 运行程序的类的全限定名 --name 运行程序的名称 --jars 运...原创 2020-05-21 21:27:21 · 761 阅读 · 0 评论