今天开始学习spark核心编程之高级特性:
(1)基于排序机制的wordcount程序
(2)二次排序(其实就是根据多个字段排序,sort by a,b,c)
(3)topN
(1)对于第一个问题,其实就是如何把('a',1),('b',3)类似的pair结构的数据排序,由于只有sortByKey没有sortByValue,因此想办法调换一下key/value的位置就可以了。
(2)二次排序,需要继承一个spark提供的接口
(3)先排序,然后take(n)方法.对于分组取topN,就先groupByKey,然后在组内使用map,找出最大的topN。