一、提要
当前各模块负责人(点击人名可跳转至CSDN个人主页):
代码与文本查重—王帅
界面设计与功能结合——牛翔宇
代码检测——吴玮桓
代码与文本查重——李成
本文简单记录2021.5.15——2021.5.22一周内各成员工作内容总结和对下一周工作内容的展望。具体内容请查看个人总结文章:
2021.5.22项目阶段报告-王帅
2021.5.22项目阶段报告-吴玮桓
2021.5.22项目阶段总结-李成
2021.5.22项目阶段总结-牛翔宇
二、本周总结
1.代码与文本查重(王帅)
1.给出了共现矩阵的一种实现。
希望将共现矩阵加入到查重算法中,主要用于发现主题,解决词向量相近关系的表示,考虑处理正文。
2.搜集了几种文本相似度的度量方法:
LCS最长子序列;最小编辑距离;莱文斯坦距离;
Jaccard相似性系数;TF-IDF+topK;局部哈希算法;
余弦相似度;欧几里德相似度;皮尔森相似度。
3.制作了一个简易的网络查重demo。
使用Tkinter生成一个简单界面;
选择文件并分词;
使用爬虫;
计算相似度;
展示结果。
2.代码检测(吴玮桓)
1.准备最终测试用的数据,保证实验报告的数量和真实性,并通过手动的注入一些重复的代码和报告评判各种算法的可靠性
2.集成动态编译所需要的运行环境
3.代码与文本查重(李成)
1、将自己的算法进行了汇总,并且定义了一些接口,方便集成。
2、也进一步实现了关于cpp的ast语法树的分析,然后只要套上smithwaterman的算法即可实现相似度的对比分析。
4.界面设计与功能结合(牛翔宇)
1.实现了检测sonarqube服务器开启状态的更好方法,优化了关闭服务器的方法,使关闭服务器不会误伤到其他使用JDK的程序。
2.将文件提取的部分内容集成到了系统中。主要包括:将doc、pdf文件中的图片的文字提取出来并按顺序加入到文字内容中。
3.此外还优化了sonarqube检测代码的部分,具体内容包括:
(1)增加了用户项目列表,可以供用户查看项目名及项目检测时间,删除项 目。
(2)优化了获取代码检测结果的过程,用增加的用户项目列表来指定要获取结果的项目,改善用户的体验。
三、下周计划
1.代码与文本查重(王帅)
1.优化查重算法。
2.完善提取细节。
2.代码检测(吴玮桓)
1.实验报告的测试数据未完全做完,继续准备
2.与队友对接动态编译部分的内容
3.审查整个项目中的设计方面的漏洞
3.代码与文本查重(李成)
1、下周根据进度应该是集成成功。
2、我这一部分进行单元测试。
4.界面设计、数据库(牛翔宇)
1.对文件提取部分内容与队友交流协商,完全集成到系统中。
2.将其他未完全开发完成的模块集成到系统中。