需求分析
某英语老师需要统计完型填空、阅读理解等题型中出现的高频词汇,将这些词汇整理后让学生加强学习与记忆。
(1)只统计英文词汇,文章中的中文需要剔除;
(2)统计出高频的词汇及出现次数;
(3)按出现频率从高到低的顺序给出有限的结果。
处理过程
(1)从文本文件读入文章,放到内存中等待处理;
(2)使用正则匹配中英文单词,不包含中文和其它特殊字符;
(3)将匹配出的单词存起来,并统计出现次数;
(4)按出现次数从高到低进行排序;
(5)取前N个结果;
代码实现
public class WordCounter {
//储存次数的Map
private static Map<String, Integer> countMap = Maps.newHashMap();
//正则匹配
private static String regex = "[a-zA-Z]+";
private static Pattern pattern = Pattern.compile(regex);
//总个数
private static int sumCount = 0;
public static void main(String[] args) throws IOException {
//文件:包含要处理的文章