【Java实例】使用正则统计英文文章中的高频词汇

最新推荐文章于 2022-10-30 22:41:58 发布

南瓜慢说

最新推荐文章于 2022-10-30 22:41:58 发布

阅读量356

点赞数 1

文章标签： Java 统计正则排序频率

本文链接：https://blog.csdn.net/dengnanhua/article/details/102463194

版权

该博客介绍如何使用Java通过正则表达式从英文文章中统计高频词汇，并按频率排序。文章涵盖需求分析、处理步骤、代码实现、结果展示和总结。重点在于读取文件、过滤中文和特殊字符、存储并计数单词、排序和限制输出结果数量。

摘要由CSDN通过智能技术生成

需求分析

某英语老师需要统计完型填空、阅读理解等题型中出现的高频词汇，将这些词汇整理后让学生加强学习与记忆。

（1）只统计英文词汇，文章中的中文需要剔除；

（2）统计出高频的词汇及出现次数；

（3）按出现频率从高到低的顺序给出有限的结果。

处理过程

（1）从文本文件读入文章，放到内存中等待处理；

（2）使用正则匹配中英文单词，不包含中文和其它特殊字符；

（3）将匹配出的单词存起来，并统计出现次数；

（4）按出现次数从高到低进行排序；

（5）取前N个结果；

代码实现

public class WordCounter {
    //储存次数的Map
    private static Map<String, Integer> countMap = Maps.newHashMap();
    //正则匹配
    private static String regex = "[a-zA-Z]+";
    private static Pattern pattern = Pattern.compile(regex);
    //总个数
    private static int sumCount = 0;

    public static void main(String[] args) throws IOException {
        //文件：包含要处理的文章