一、提要
当前各模块负责人(点击人名可跳转至CSDN个人主页):
代码提取——王帅
文本提取——牛翔宇
代码检测——吴玮桓
代码与文本查重——李成
之后分工将有调整,牛翔宇将和吴玮桓共同负责代码检测部分,王帅负责内容提取。
本文简单记录2021.3.19——2021.3.25一周内各成员工作内容总结和对下一周工作内容的展望。具体内容请查看个人总结文章:
二、本周总结
1、代码提取
主要实现了:
1、提取内容的模块已经可以处理需求文件。
2、可以提取文本文件和图片文件,并在指定位置产生txt文件。
3、可以同时处理多个文件。
4、避免了导入jar包的麻烦。
2、文本提取
本周对上一周利用Apache Tika完成的文档内容提取程序进行了改进。改进的内容为:
1、修改jpype对JVM的操作使程序可以重复读取文件。
2、利用正则表达式匹配字符串将固定格式的实验报告的“实验步骤与内容”和“结论分析与体会”两个部分的内容提取出来并显示在文本框中。
3、代码检测
1、web_api调用:上周已经尝试过调用web_api查看测试项目的相关数据,但是没有能够通过代码提取出想要的内容,这周已经发现了是需要对其进行认证封装。现已经可以根据sonarqube的web和规则并且结合项目实训的需求,调用所测试的项目的bug信息。
2、Json数据处理:成功调用后就需要提取出关键的信息,根据需求最后需要展示的是路径,行数和bug描述。
4、代码与文本查重
实现了自己的TFIDF,这样的情况下,进行文本相似度的分析就更加好了。完成了:
1、自己的TFIDF算法的实现。
2、一个使用自己TFIDF的余弦相似度算法的实现。
三、下周计划
1、代码提取
1、处理一些临界问题,增加程序健壮性。
2、(主要目标)提高对图片的识别准确度。
目前的思路有:图像二值化处理和样本训练。
2、文本提取
下周(牛翔宇)将暂停有关文档内容提取程序的工作,将工作重心转移到与队友合作完成代码语法检测功能上来。
3、代码检测
1.将本次测试的数据结果显示在代码前端
2.后端尝试根据输入的项目进行测试并返回结果,形成一个完整的事件
4、代码与文本查重
代码相似度的判断,至少阅读论文《Comparison and Evaluation of Clone Detection Tools》了解可行性,然后总结实现方式。