算法系列-大数据面试题-大文件中返回频数最高的100个词

1.题目描述

有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词


2.思考过程

(1)参见我的其他大数据面试题博文。此处1G文件远远大于1M内存,分治法,先hash映射把大文件分成很多个小文件,具体操作如下:读文件中,对于每个词x,取hash(x)%5000,然后按照该值存到5000个小文件(记为f0,f1,...,f4999)中,这样每个文件大概是200k左右(每个相同的词一定被映射到了同一文件中)

(2)对于每个文件fi,都用hash_map做词和出现频率的统计,取出频率大的前100个词(怎么取?topK问题,建立一个100个节点的最小堆),把这100个词和出现频率再单独存入一个文件

(3)根据上述处理,我们又得到了5000个文件,归并文件取出top100

  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
好的,我可以帮你解决这个问题。 首先,你需要创建一个哈希表(HashMap)来存储每个单的出现次数。然后,你需要遍历每一行,将每个单作为键存储在哈希表,如果这个单已经存在于哈希表,则将它出现的次数加1。最后,你需要对哈希表按照出现次数进行排序,并返回100个出现频率最高的单。 以下是这个算法的Java实现代码: import java.io.BufferedReader; import java.io.FileReader; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util.List; import java.util.Map.Entry; public class WordFrequency { public static void main(String[] args) throws Exception { HashMap<String, Integer> wordCount = new HashMap<String, Integer>(); BufferedReader br = new BufferedReader(new FileReader("yourfile.txt")); String line = br.readLine(); while (line != null) { String[] words = line.split("\\s+"); for (String word : words) { if (wordCount.containsKey(word)) { wordCount.put(word, wordCount.get(word) + 1); } else { wordCount.put(word, 1); } } line = br.readLine(); } br.close(); List<Entry<String, Integer>> sortedList = new ArrayList<Entry<String, Integer>>(wordCount.entrySet()); Collections.sort(sortedList, new Comparator<Entry<String, Integer>>() { public int compare(Entry<String, Integer> o1, Entry<String, Integer> o2) { return o2.getValue().compareTo(o1.getValue()); } }); for (int i = 0; i < 100 && i < sortedList.size(); i++) { Entry<String, Integer> e = sortedList.get(i); System.out.println(e.getKey() + " : " + e.getValue()); } } } 请注意,这个程序假设你的文件每个单都以空格分隔。如果不是这样,你需要相应地修改代码。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五癫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值