spark
海鸥-号
这个作者很懒,什么都没留下…
展开
-
Spark-Wordount详细解析scala版本
第一步:创建Spark对象 sc = SparkContext(appName="PythonWordCount") 第二步:获取数据并将数据并行化(这里直接List()) data= List("i","love","spark","do","you","love","spark","too"原创 2018-03-26 15:07:02 · 151 阅读 · 0 评论 -
shuffle机制和原理分析
Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络...转载 2019-02-26 22:06:47 · 23573 阅读 · 2 评论