场景
现在有如下数据格式
图书分类,图书名,数量
现在想统计全部分类中数量最多的书名以及数量
场景解析
如果不基于spark,我们来思考这个问题,数据量大内存是放不下,分类也不确定有多少类,图书名可能有重复,还需要合并计算。这种情况只能是分治,首先分类,把文件首先按照分类拆分成多个文件,每个文件中的数据都是图书名数量,然后根据图书名对数量进行合并,最后进行排序。整理了一份适合2018年学习的大数据资料需要的加群QQ群:834325294 注明CSDN既可免费获取
spark思维转化
上面的思路单独写这个程序没问题,但是如果基于spark就有点问题了,首先是分区的事情,想把数据准确落在不同的分区,且不重复,必须要先知道到底有多少分区。所以首先要统计分类种类,帮助以后分区。
分区器
有了数据就要应用分区器
直接根据已经生成好的数据来进行分区。保证1个分类1个分区,这样就可以以后的部分就只关注排序即可。