1G文件内存大小为1M统计每个单词出现次数的TopN(思想)

1G文件内存大小为1M统计每个单词出现次数的TopN(思想)

实现这个思路先从以下几个方面解决:
①读取文件:使用IO流解决,使用缓冲数组 byte 只能容纳1M
考虑使用一个可以设置大小的IO流来解决:BufferreaderInputStream
然后设置编码方式:InputStreamReader(BufferreaderInputStream,“utf-8”)
这样就可以1M读取文件,然后把文件保存到HashMap中,为了防止数据倾斜把文件数量设置多点(比如:1G文件大小,1M读可以分为1024个);
然后使用k.hashCode()%文件数(相当于分区数)散存到HashMap中
②通过Hash()将1G文件均匀地分发到你设置的小文件(分区)中
相同的key在同一个文件(分区)中,然后在遍历每一个文件中key;
if :key 相同的 v 累加 ,else: 不存在 新建一个HashMap放进去
③排序(按照value)进行排序
自定义一个类:进行排序然后取Top N 。
或者是借助于比较器。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值