- 博客(2)
- 收藏
- 关注
原创 论宽依赖、窄依赖与shuffle
概念上来说 Shuffle的含义就是洗牌,将数据打散,父RDD一个分区中的数据如果给了子RDD的多个分区(只要存在这种可能),就是shuffle。Shuffle会有网络传输数据,但是有网络传输,并不意味着就是shuffle。窄依赖:没有发生shuffle宽依赖:存在shuffle 也许大家看了上面的说法只是有个初步的印象,下面我将以join为例进行讲解,相信大家看了这个...
2018-12-03 23:45:23 2957 3
原创 Spark遇到的两三事以及阿里云搭建spark集群的大坑
1)错误代码如下://distinctsubject是对应学科名的rdd数组。 val distinctsubject: RDD[String] =allsubject.distinct()//这个思路是将rdd中的字符串取出来,一个个用作筛选分组。 distinctsubject.foreach(dsbj=>{//逐个筛选出每个学科对应老师的数据(take是一个action,...
2018-12-02 00:24:04 1115
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人