【学生研究课题】文档相似性检测系统(作业查重)

本文档介绍了一个学生研究课题,旨在开发一个程序来检测实验报告的相似性,采用余弦定理计算文本相似度。实现过程包括从两篇文档的简单比较到多篇文件、目录下文件的相似性计算,以及加入中文分词和TF-IDF统计,最终目标是开发图形界面和命令行工具。
摘要由CSDN通过智能技术生成

    上次写了一篇【学生研究课题】CSDN博客数据获取、分析、分享,分析完成该题的研究思路。今天我们再来分享另一个有实际价值的问题。


问题说明(所有题型,见WORD附件

    在阅读电子版的实验报告时,经常会遇到两-三个学生的实验报告除了姓名、学号外基本一致,现在请思考开发一个程序,监测班级学生的实验报告的相似性,假设有50个学生的实验报告,则最后有一个50×50的矩阵,每一行为某学生与其他学生报告的相似性得分。
    (1) 思考一下,怎样判断两篇文档是相似的?有哪些方法。
    (2) 尝试着用程序实现,老师最后把的实验报告发给大家进行程序的检测。
    参考:余弦定理的应用:基于文字的文本相似度计算
    1.独立完成,或组成2人小组完成。
    2.实现难度:难,希望有志于从事算法设计工作的同学选择此题目

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值