上次写了一篇【学生研究课题】CSDN博客数据获取、分析、分享,分析完成该题的研究思路。今天我们再来分享另一个有实际价值的问题。
问题说明(所有题型,见WORD附件)
在阅读电子版的实验报告时,经常会遇到两-三个学生的实验报告除了姓名、学号外基本一致,现在请思考开发一个程序,监测班级学生的实验报告的相似性,假设有50个学生的实验报告,则最后有一个50×50的矩阵,每一行为某学生与其他学生报告的相似性得分。
(1) 思考一下,怎样判断两篇文档是相似的?有哪些方法。
(2) 尝试着用程序实现,老师最后把的实验报告发给大家进行程序的检测。
参考:余弦定理的应用:基于文字的文本相似度计算
1.独立完成,或组成2人小组完成。
2.实现难度:难,希望有志于从事算法设计工作的同学选择此题目