项目介绍
项目目标
该系统可以对论文集合(比如某个会议某年发表的论文)进行比对,输出相似的论文对集合。
项目背景
学术论文是用科学语言记录下来的阶段性知识成果,是学术交流的重要方式。论文摘要高度概括了研究背景和问题、创新发现和实验验证等主要内容,是判断论文质量的首要依据。论文检索实际应用中,科研人员为了筛选相关工作,往往从摘要入手关注论文在不同子空间上的相似性,如是否面向相同的研究问题、是否用了相同的技术手段等。针对特定论文集合给出面向子空间的相似性比较结果,将能辅助科研人员快速获取论文要点,具有重要实用价值。
技术创新
1.数据集:术论文数据集,包括论文的ID、标题、摘要、关键字、引用关系、CCS分类,以及论文摘要中句子级别的子空间标记(研究背景、研究问题、贡献、方法、实验)。
创新点:子空间标记
2.核心算法:
相同子空间中论文之间的相似性与三种特征相关:
① CCS分类的相似度;
② reference的相似程度;
③ 在该子空间上的文本中关键词的相似度。
针对上述三种特征,参考BabbleLabble设计基于规则嵌入的深度模型,优化目标包括CCS分类中公共父节点的距离、reference的杰卡德相似系数、从子空间的文本中提取出的关键词的杰卡德相似系数。
创新点:基于规则嵌入的深度模型
(参考了斯坦福发的一篇论文“Training Classifiers with Natural Language Explanations”)
3.开发语言以及开发平台框架
Python
html5 css3 javascript
tensorflow/pytorch
工作内容
1.具体工作内容
1.1数据预处理
①数据集:ACM学术论文数据集(含有子空间标签)、scopus学术论文数据集(不含子空间标签)
②在scopus学术论文数据集上测试“子空间标记模型”
说明:这里的提到的“子空间标记模型”是实验室的前期任务,有直接可用的模型代码,ACM学术论文数据及上的子空间标签也是通过该模型获得的。
1.2核心算法编写
根据“CCS分类的相似度”“reference的相似程度”“在该子空间上的文本中关键词的相似度”这三个规则构建基于规则嵌入的深度模型,优化目标包括CCS分类中公共父节点的距离、reference的杰卡德相似系数、从子空间的文本中提取出的关键词的杰卡德相似系数,训练出一个相似度门限,使得高于门限的论文输出出来。
1.3web网站
主要功能为输入一篇论文的reference或者某个会议某年的论文集合,输出相似论文对。
网站界面设计为可以选择目标论文或目标会议、年份,选择好后,对五个子空间中,论文集合里相似的论文对进行展示。
预期成果
以web网站形式展示,网站功能为可以选择论文,以及会议、年份等信息,形成论文集和,输出该论文集合在五个子空间(研究背景、研究问题、贡献、方法、实验)上的论文相似对。