第三周
小组进行了一次会议的召开。本次会议的召开主要是根据第一次找老师的时候老师给我们的方向讲解,自己搜索了一些相关方面的论文进行自学,以便我们能在相关领域入门。共计搜索了一下内容:
https://baijiahao.baidu.com/s?id=1607697774799696077
这是一篇关于机器学习的文章,内容主要是基于深度学习CNN的短文本相似度计算方案。
https://www.ixueshu.com/h5/document/994906362d7885de4704b2e6960cfd56318947a18e7f9386.html
这是一篇关于主观题短文本评分的一篇武汉理工大学的论文,一位同学进行了阅读。
https://www.ixueshu.com/h5/document/4d62c2f5e930d33d318947a18e7f9386.html
这也是一篇关于基于短文本相似度计算的主观题自动阅卷方法。
https://www.ixueshu.com/h5/document/b6a0a2e89f6b93223a6974ca6819a441318947a18e7f9386.html
这篇文章是比较传统意义上的利用分词进行的评分办法。是基于TF-IDF及LSI模型的主观题自动评分系统研究。
我们这周就是通过自己学习,搜索资料对文本处理有个概念雏形。我们商量等周五上课时多听听老师怎么讲。之后我们计划着找老师交流一下我们的思路,看看我们的思考方向是不是正确的。在这之后,我们想在老师给的建议上学习一周,然后开始我们项目的构造。
通过查阅文献,阅读相关论文,我们对阅卷评分网站制作的思路进行理顺,待和老师进行进一步讨论。开始对机器学习自然语言处理模型和python语言的学习。
我这一周主要是学习了最后一篇论文,通过简单的阅读等资源的查阅,我主要掌握了分词进行处理的思路。相对于采用神经网络机器学习的方法进行,我没有相关方面的基础,采用神经网络的文章我看不太懂。所以我选择这一篇,采用分词统计词频进行相似度比较的办法进行。我拿文中给的例子作为理解对象,文中是以算法图给出的流程信息。大体是经过对短信息流的分词处理,然后进行聚类,相似度比较,得到结果。在刚才的过程中,还采用了降维的方式对数据进行处理。整体上思路比较明析。但是文章最后作用点不是在智能阅卷上,而只能是对抄袭等查重行为的处理,略有遗憾,但是收获颇丰,我在相似度计算上的理解深入了一点。下周我将与团队一起,取经于老师,得到具体思路。下面附图一张。