写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来。文本文件大约是30KB~300KB大小

本文档介绍了一个使用Java编程实现的程序,用于分析30KB至300KB文本文件中的词频,通过正则表达式匹配单词,用TreeMap存储并排序,展示出现频率最高的10个词。同时,文章提到了使用JProfiler进行性能测试,虽然初次接触,但作者期待更多学习交流。
摘要由CSDN通过智能技术生成

解决步骤

1.读取文件,将读取到的数据放入到字符缓冲区;

2.将各个单词和出现的次数添加到集合中;

3.重写比较器,取出各个单词数进行排序;

4.打印结果;

编程语言:java

测试文本:c:/1.txt     大小:39KB

性能测试工具:JProfiler

具体思路:

1.将读取到的字符存放到StringBuffer中;

2.从StringBuffer中读取单词,利用正则表达式匹配单词,将匹配到的单词和次数添加到TreeMap中;

3.重写比较器,更具出现的次数进行排序,得到出现频率最高的10个词;

程序实现:

package cqupt.first;


import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import java.util.Map;
import java.util.TreeMap;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class FileWordsCount {
<span style="white-space:pre">	</span>public static void main(String[] args) {
<span style="white-space:pre">		</span>long time1 = System.currentTimeMillis();
<span style="white-space:pre">		</span>//1.读取到字符
<span style="white-space:pre">		</span>StringBuffer sb = null;
<span style="white-space:pre">		</span>try {
<span style="white-space:pre">			</span>// 读取文件
<span style="white-space:pre">			</span>BufferedReader br = new BufferedReader(new FileReader("c:/1.txt"));
<span style="white-space:pre">			</span>// 将读取到的数据放入字符缓冲区
<span style="white-space:pre">			</span>sb = new StringBuffer();
<s
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值