开题

1.立题依据

许多课程都有实验安排,需要学生提交大量代码,批阅的过程费时费力。于是就想设计一款pc应用,能够提取并批阅提交上来的代码,并且进行查重,提高批阅的效率。

2.相关研究现状

目前没有批改和查重一体化的应用,但是有很多方法可以对代码进行检查,比如C语言代码可以用lint,Java代码用SonarLint进行静态语法检查,还有编译器在编译过程中的检错,这就涉及到编译原理;查重相关的研究更多一些,涉及到深度学习,如利用动态规划求LCS最长子序列,或者利用基于K-gram hash的分析特征提取技术等。

3.研究内容和步骤

1.代码提取
支持doc、pdf、md、html、wps、rtf等等各种常见格式文本;
使用apache tika工具提取;
要求学生作业必须支持tika,比如不能对pdf使用口令保护。
(1)可以直接要求学生提交源代码,即.c或.java或.py等格式源文件;
(2)可以规定学生嵌在作业中的代码前后有标记,像这样:
------begin-java-code------
public class HelloWorld {
public static void main(String[] args) {
System.out.println(“Hello World!”);
}
}
------end-java-code------
(3)可以从作业中的代码截屏图片中提取代码。

2.代码检查
(1)静态语法检查
(2)调用外部编译器
(3)运行看结果是否符合预期(编译通过)

3.代码查重
(1)比较代码的相似度和文字的相似度,方法可能接近;
(2)比较两段文字的相似度,应该有成熟的算法或工具;
(3)比较两段代码的相似度,应该有成熟的算法或工具;
(4)查询一段文字是否是抄袭(抄袭自某个文档库),应该有成熟的算法或工具。

4.时间安排

计划总开发时间为十四周;
开题和前期准备工作需要一周;
每个功能模块有四周的时间,包括开发和阶段测试;
最后一周进行系统测试和提交。

5.创新点

(1)支持多种文档格式doc、xps、pdf、html、md等。
(2)能识别图片中的代码(或片段)。
(3)能检查代码的各种层次的错误:静态语法错、编译错、运行错等。
(4)也能提取正文。
(5)能比较代码或正文的相似度。

6.预期实验结果

能够处理多种高级程序语言的代码;
能够通过文本和图片识别并提取代码;
能够验证程序运行结果的正确性;
能够发现代码基本的语法错误;
能够发现代码的一些逻辑错误;
能够从多份代码中筛选出相似度过高的代码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值