1G文件内存大小为1M统计每个单词出现次数的TopN(思想)
实现这个思路先从以下几个方面解决:
①读取文件:使用IO流解决,使用缓冲数组 byte 只能容纳1M
考虑使用一个可以设置大小的IO流来解决:BufferreaderInputStream
然后设置编码方式:InputStreamReader(BufferreaderInputStream,“utf-8”)
这样就可以1M读取文件,然后把文件保存到HashMap中,为了防止数据倾斜把文件数量设置多点(比如:1G文件大小,1M读可以分为1024个);
然后使用k.hashCode()%文件数(相当于分区数)散存到HashMap中
②通过Hash()将1G文件均匀地分发到你设置的小文件(分区)中
相同的key在同一个文件(分区)中,然后在遍历每一个文件中key;
if :key 相同的 v 累加 ,else: 不存在 新建一个HashMap放进去
③排序(按照value)进行排序
自定义一个类:进行排序然后取Top N 。
或者是借助于比较器。