统计文章中出现的单词频率java小程序

最新推荐文章于 2022-03-18 21:10:30 发布

杨树1026

最新推荐文章于 2022-03-18 21:10:30 发布

阅读量5.4k

点赞数 1

分类专栏：软件工程学习文章标签： java 软件工程编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012155582/article/details/40318321

版权

更改：1.原博文过滤效果未展示，新增加过滤展示（要过滤的单词在文件particle.txt中，可以很方便的在其中按过滤条件添加或删除单词，要统计的文档在文件ENGl.txt中，统计了第一部《哈利波特》）
2.利用jvisualvm.exe 改进了性能分析结果

一.简介：本程序采用java语言编程，实现了统计一篇英文文章中出现频率最高的并且有意义（去掉虚词，语气助词等不影响文意的单词）十个单词的功能。并用分别《哈利波特》一书的不同章数测试，得出该书作者最爱用的10个单词。

二.设计思路：为了实现统计一篇英文文章中出现频率最高的十个单词的功能，我将程序功能分解为三部分，第一部分是将文章读入内存并将每个单词分开，第二部分是将每个单词出现的次数统计出来，第三部分是将出现次数最多的十个单词选出。bu

三.具体实现：1.读入文件并利用java方法将其转化为字符串类型

2.利用正则表达式判断将字符串转换为字符串数组，每一个单词就是数组中的一个元素

3.建立Obeject类型的二维数组（因为Object类型为所有类的超类方便后续数组存储相应信息）。数组为N行2列，第一列用于存储不同的单词，第二列用于存储相应单词的个数。对单词数组进行遍历，当前单词与已存储单词比较，如果相同则相应单词数加1，如果与以存储单词都不同则在以存储单词数组后加行用于记录此单词。一次遍历后可得到不同单词的个数。

4.对单词信息数组遍历，如果当前单词为虚词，语气助词等无意义的词语，则将其次数置为0，以达到统计出的

最低0.47元/天解锁文章

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。