【Java实例】使用正则统计英文文章中的高频词汇

该博客介绍如何使用Java通过正则表达式从英文文章中统计高频词汇,并按频率排序。文章涵盖需求分析、处理步骤、代码实现、结果展示和总结。重点在于读取文件、过滤中文和特殊字符、存储并计数单词、排序和限制输出结果数量。
摘要由CSDN通过智能技术生成

需求分析

某英语老师需要统计完型填空、阅读理解等题型中出现的高频词汇,将这些词汇整理后让学生加强学习与记忆。

(1)只统计英文词汇,文章中的中文需要剔除;

(2)统计出高频的词汇及出现次数;

(3)按出现频率从高到低的顺序给出有限的结果。

 

处理过程

(1)从文本文件读入文章,放到内存中等待处理;

(2)使用正则匹配中英文单词,不包含中文和其它特殊字符;

(3)将匹配出的单词存起来,并统计出现次数;

(4)按出现次数从高到低进行排序;

(5)取前N个结果;

代码实现

public class WordCounter {
    //储存次数的Map
    private static Map<String, Integer> countMap = Maps.newHashMap();
    //正则匹配
    private static String regex = "[a-zA-Z]+";
    private static Pattern pattern = Pattern.compile(regex);
    //总个数
    private static int sumCount = 0;

    public static void main(String[] args) throws IOException {
        //文件:包含要处理的文章
      
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值