数据整理/数据爬取
一个人负责
因为我们手里的数据集缺少年份以及会议或者期刊的标识,为了便于后续的web展示,这里需要自己爬取或者根据其他比较全的数据集来完善一下我们手上的ACM 数据集的数据信息,另外在此基础上做一些柱状图的可视化展示。
web搭建
一个人负责
界面需要实现venue、年份或者某篇具体论文的选择,从而根据venue、年份或者某篇论文的参考文献构成一个论文的集合
然后在这个论文集合的基础上,五个子空间(研究背景、研究问题、贡献、方法、实验)上分别输出相似论文对。
核心算法实现
暂时安排的4个人
refference(全局的特征)
————输入两篇论文名字就可以(或者其他标识符) 杰卡德相似度
ccs分类(需要构建一棵树)(全局的特征)
———输入2篇论文的名字(或是其他标识符)就可以获得这两篇论文的分类所在节点到公共父节点的距离(int)
每个子空间(每个句子)的关键词(局部的特征)
———输入:两篇论文标题+子空间label(0,1,2,3,4)——>在该子空间上(具体来说就是两个句子上)的关键词的杰卡德相似度,
或者文本相似度,或者是这两种相似度的结合,只要输出是一个数字就行
构建训练集
5个子空间上分别构造5个训练集,每个训练集200个论文对左右,论文对既有正样本对,也有负样本对
设计模型
输入是:文本的序列化的向量和三个特征的加和,输出是一个(0,1)之间的数,1代表是正样本对,也就是这两篇论文在这个子空间上是相似的,0代表是负样本对,代表这两篇论文在这个子空间上是不相似的。