统计分析文章中英文单词出现次数及频率（C++实现）_输入一篇文章(文章以半角句号结束),统计其中出现的单词(连续的字母)及出现频率,若

最新推荐文章于 2024-11-19 12:44:27 发布

2401_84976170

最新推荐文章于 2024-11-19 12:44:27 发布

阅读量885

点赞数 11

文章标签： c语言 c++ 学习

本文链接：https://blog.csdn.net/2401_84976170/article/details/138984274

版权

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

<3>①为了应对文章总词数较少（几十个词）造成大多数单词仅仅只出现一次的情况，程序选取出现频率高于5%的词不论文章总词数取值均无条件输出。②为了应对文章词数很多（5W~50W词）造成输出序列太长，程序选取出现频率高于0.01%的词。③中等篇幅的文章，在出现频率高于0.01%的条件上加上至少出现2次的条件。

2.为了统计的高效性：

对源单词集合和无需统计的单词集合根据字典序进行快速排序（平均O(nlogn)），再进行顺序查找（O(n)）以获得相同词的重复次数，得到的词在无需统计的单词集合中查找（O(nlogn)），只有在无需统计的单词集合中不出现才能被统计如结果集，最后对结果集以出现次数为关键字进行降序排序（O(nlogn)），输出结果。总复杂度为（O(nlogn)），测试中课瞬间完成统计10W词级别的输入量。

（如果使用红黑树的二叉检索树实现无意义词集合的维护以及最后统计结果的维护效率可能还能小幅提升，可用STL的set实现，总复杂度仍为（O(nlong)））

3.为了程序的健壮性和适用性：

<1>程序输出保持固定且较强适应性的输出格式，程序会自动过滤掉输入文件中允许任意次序穿插的符号、汉字、标点、空格等非英文字符（但不能有Unicode格式字符），此外程序尽量降低了因某些特殊情况的发生造成格式混乱的可能。

<2>在当输入文件为空时，按照统一的格式输出相应异常提示，并结束程序。

<3>由于输出条件的控制造成输出为空时，也按照统一的格式输出相应异常提示，并结束程序。

例如：当输入一个词数很多的文件（10W个词），而恰好每个词均出现了不足（100000X0.05%=10次），那么作者认为，这篇文章不具有足够的关于**词汇出现次数（频率）**的统计意义。

<4>对于程序的输入输出已经需要剔除的单词，程序均使用文件存放。对于输入输出较大或者需要剔除词集需要修改时，这样的IO方式能够扩大程序的适用范围。（在程序开头代码部分建立一张需要剔除词的表的做法太low了）

<5>关于如何找到需要剔除的词，若仅仅是自己陈列能想到的词，或者借助搜索引擎获取他人收集的虚词表。测试表明这样的做法遗漏较多（作者使用100W词英文小说实际测试结果显示，仍然有几十个无意义词在统计结果的前列）。因此获得虚词以及无意义词有效的方法是：输入一篇100W词及其以上单词量的文章，选取统计到的前100-150个单词复制到需要剔除的词的文件中，并检查其中包含有的有意义词重新删去即可。测试表明，此种方法获得的无意义词表十分有效，在之后的各个量级统计中均很难找到无意义的统计词被列入结果。

4.附图展示不同输入的结果：

<1>大数据量输入：《大卫.科波维尔》英文版统计结果如下：（26.7W词）（耗时：0.6080s）