2021.3.25项目阶段性报告

最新推荐文章于 2022-07-19 17:23:27 发布

ChenXiTeam

最新推荐文章于 2022-07-19 17:23:27 发布

阅读量130

点赞数

分类专栏：基于文本分析的批量代码语法检测和实验报告查重系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46817064/article/details/115254817

版权

基于文本分析的批量代码语法检测和实验报告查重系统专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、提要

当前各模块负责人（点击人名可跳转至CSDN个人主页）：
代码提取——王帅
文本提取——牛翔宇
代码检测——吴玮桓
代码与文本查重——李成
之后分工将有调整，牛翔宇将和吴玮桓共同负责代码检测部分，王帅负责内容提取。
本文简单记录2021.3.19——2021.3.25一周内各成员工作内容总结和对下一周工作内容的展望。具体内容请查看个人总结文章：

2021.3.25项目阶段报告-王帅

2021.3.25项目阶段报告-吴玮桓

2021.3.25项目阶段报告-牛翔宇

2021.3.25项目阶段报告-李成

二、本周总结

1、代码提取

主要实现了：
1、提取内容的模块已经可以处理需求文件。
2、可以提取文本文件和图片文件，并在指定位置产生txt文件。
3、可以同时处理多个文件。
4、避免了导入jar包的麻烦。

2、文本提取

本周对上一周利用Apache Tika完成的文档内容提取程序进行了改进。改进的内容为：
1、修改jpype对JVM的操作使程序可以重复读取文件。
2、利用正则表达式匹配字符串将固定格式的实验报告的“实验步骤与内容”和“结论分析与体会”两个部分的内容提取出来并显示在文本框中。

3、代码检测

1、web_api调用：上周已经尝试过调用web_api查看测试项目的相关数据，但是没有能够通过代码提取出想要的内容，这周已经发现了是需要对其进行认证封装。现已经可以根据sonarqube的web和规则并且结合项目实训的需求，调用所测试的项目的bug信息。
2、Json数据处理：成功调用后就需要提取出关键的信息，根据需求最后需要展示的是路径，行数和bug描述。

4、代码与文本查重

实现了自己的TFIDF，这样的情况下，进行文本相似度的分析就更加好了。完成了：
1、自己的TFIDF算法的实现。
2、一个使用自己TFIDF的余弦相似度算法的实现。

三、下周计划

1、代码提取

1、处理一些临界问题，增加程序健壮性。
2、（主要目标）提高对图片的识别准确度。
目前的思路有：图像二值化处理和样本训练。

2、文本提取

下周（牛翔宇）将暂停有关文档内容提取程序的工作，将工作重心转移到与队友合作完成代码语法检测功能上来。

3、代码检测

1.将本次测试的数据结果显示在代码前端
2.后端尝试根据输入的项目进行测试并返回结果，形成一个完整的事件

4、代码与文本查重

代码相似度的判断，至少阅读论文《Comparison and Evaluation of Clone Detection Tools》了解可行性，然后总结实现方式。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。