- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 RDD的CombineBykey
需要对一个KV类型的RDD按照Key进行分组,以前一直用groupBy,但是这个函数比较耗费内存,会首先进行shuffle,数据量比较大的时候,需要把数据都传输过去,所以比较耗费时间及内存,甚至会直接OOM。 CombineBykey在一定程度上优化了groupby,类似于MR中的combine,在shuffle传递之前在map端进行一次合并,这样在数据量很大的时候会减少很多不必要的传输。 C
2016-10-23 09:43:53 1105
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人