2021.3.25项目阶段性报告

一、提要

当前各模块负责人(点击人名可跳转至CSDN个人主页):
代码提取——王帅
文本提取——牛翔宇
代码检测——吴玮桓
代码与文本查重——李成
之后分工将有调整,牛翔宇将和吴玮桓共同负责代码检测部分,王帅负责内容提取。
本文简单记录2021.3.19——2021.3.25一周内各成员工作内容总结和对下一周工作内容的展望。具体内容请查看个人总结文章:

2021.3.25项目阶段报告-王帅

2021.3.25项目阶段报告-吴玮桓

2021.3.25项目阶段报告-牛翔宇

2021.3.25项目阶段报告-李成

二、本周总结

1、代码提取

主要实现了:
1、提取内容的模块已经可以处理需求文件。
2、可以提取文本文件和图片文件,并在指定位置产生txt文件。
3、可以同时处理多个文件。
4、避免了导入jar包的麻烦。

2、文本提取

本周对上一周利用Apache Tika完成的文档内容提取程序进行了改进。改进的内容为:
1、修改jpype对JVM的操作使程序可以重复读取文件。
2、利用正则表达式匹配字符串将固定格式的实验报告的“实验步骤与内容”和“结论分析与体会”两个部分的内容提取出来并显示在文本框中。

3、代码检测

1、web_api调用:上周已经尝试过调用web_api查看测试项目的相关数据,但是没有能够通过代码提取出想要的内容,这周已经发现了是需要对其进行认证封装。现已经可以根据sonarqube的web和规则并且结合项目实训的需求,调用所测试的项目的bug信息。
2、Json数据处理:成功调用后就需要提取出关键的信息,根据需求最后需要展示的是路径,行数和bug描述。

4、代码与文本查重

实现了自己的TFIDF,这样的情况下,进行文本相似度的分析就更加好了。完成了:
1、自己的TFIDF算法的实现。
2、一个使用自己TFIDF的余弦相似度算法的实现。

三、下周计划

1、代码提取

1、处理一些临界问题,增加程序健壮性。
2、(主要目标)提高对图片的识别准确度。
目前的思路有:图像二值化处理和样本训练。

2、文本提取

下周(牛翔宇)将暂停有关文档内容提取程序的工作,将工作重心转移到与队友合作完成代码语法检测功能上来。

3、代码检测

1.将本次测试的数据结果显示在代码前端
2.后端尝试根据输入的项目进行测试并返回结果,形成一个完整的事件

4、代码与文本查重

代码相似度的判断,至少阅读论文《Comparison and Evaluation of Clone Detection Tools》了解可行性,然后总结实现方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值