C语言文档相似性检测
程序设计题5:文档相似性检测
1问题描述
编写一个程序,对文档的相似性进行检测和分析。
2功能要求
要能提供以下几个基本功能。
(1)文档包含一个待检测文档和一个或多个库文档,均事先存储在硬盘上。所有文档均为txt格式,300单词以上。
(2)以句子为单位,对待检测文档进行相似性分析。可采用的相似性判定规则包括:A、如果某句子与库文档中的某个句子有连续x个单词相同;
B、如果某句子与库文档中的某个句子有多个相同的单词,且相同单词在该句子中的单词比例超过了y%;
C、其它你认为合理的判定准则。
(x、y均为事先设定的参数,可在程序运行时使用功能选项进行设置。>当判定规则满足时,判定该句子有雷同。
(3)输出详细的检测结果,标出雷同的句子,并计算出每个段落和整篇文档的相似性比例。格式如下。
相似性比例的计算方法如下。注意,不是以相同单词的数量进行计算,而是以雷同句子的单词总数进行计算。
段落相似性比例=雷同句子的单词总数
该段落的单词总数
雷同句子的单词总数
全文相似性比例
全文单词总数
选做要求:
对中文文档的相似性进行检测和分析。
3其他要求
(1)变量、函数命名符合规范。
(2)注释详细:每个变量都要求有注释说明用途;函数有注释说明功能,对参数、返回值也要以注释的形式说明用途;关键的语句段要求有注释解释。
(3)程序的层次清晰,可读性强。
(4)界面美观,交互方便。
(5)如有可能,可使用MFC 等开发工具,实现彩色或图形操作界面。
4开发环境
可以选择TC2.0、TC3.0、VC++6.0等开发环境,或者与老师讨论,选择自己熟悉的开发工具与平台。