写一个程序，分析一个文本文件中各个词出现的频率，并且把频率最高的10个词打印出来。文本文件大约是30KB~300KB大小

最新推荐文章于 2023-01-02 15:30:59 发布

zjz199303

最新推荐文章于 2023-01-02 15:30:59 发布

阅读量966

点赞数

本文链接：https://blog.csdn.net/zjz199303/article/details/40361807

版权

本文档介绍了一个使用Java编程实现的程序，用于分析30KB至300KB文本文件中的词频，通过正则表达式匹配单词，用TreeMap存储并排序，展示出现频率最高的10个词。同时，文章提到了使用JProfiler进行性能测试，虽然初次接触，但作者期待更多学习交流。

摘要由CSDN通过智能技术生成

解决步骤：

1.读取文件，将读取到的数据放入到字符缓冲区；

2.将各个单词和出现的次数添加到集合中；

3.重写比较器，取出各个单词数进行排序；

4.打印结果；

编程语言：java

测试文本：c:/1.txt 大小：39KB

性能测试工具：JProfiler

具体思路：

1.将读取到的字符存放到StringBuffer中；

2.从StringBuffer中读取单词，利用正则表达式匹配单词，将匹配到的单词和次数添加到TreeMap中；

3.重写比较器，更具出现的次数进行排序，得到出现频率最高的10个词；

程序实现：

package cqupt.first;


import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import java.util.Map;
import java.util.TreeMap;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class FileWordsCount {
<span style="white-space:pre">	</span>public static void main(String[] args) {
<span style="white-space:pre">		</span>long time1 = System.currentTimeMillis();
<span style="white-space:pre">		</span>//1.读取到字符
<span style="white-space:pre">		</span>StringBuffer sb = null;
<span style="white-space:pre">		</span>try {
<span style="white-space:pre">			</span>// 读取文件
<span style="white-space:pre">			</span>BufferedReader br = new BufferedReader(new FileReader("c:/1.txt"));
<span style="white-space:pre">			</span>// 将读取到的数据放入字符缓冲区
<span style="white-space:pre">			</span>sb = new StringBuffer();
<s