基于规则嵌入的论文比对系统工作综述

基于规则嵌入的论文比对系统(1)

项目介绍

项目目标

该系统可以对论文集合(比如某个会议某年发表的论文)进行比对,输出相似的论文对集合。

项目背景

学术论文是用科学语言记录下来的阶段性知识成果,是学术交流的重要方式。论文摘要高度概括了研究背景和问题、创新发现和实验验证等主要内容,是判断论文质量的首要依据。论文检索实际应用中,科研人员为了筛选相关工作,往往从摘要入手关注论文在不同子空间上的相似性,如是否面向相同的研究问题、是否用了相同的技术手段等。针对特定论文集合给出面向子空间的相似性比较结果,将能辅助科研人员快速获取论文要点,具有重要实用价值。

技术创新

1.数据集:术论文数据集,包括论文的ID、标题、摘要、关键字、引用关系、CCS分类,以及论文摘要中句子级别的子空间标记(研究背景、研究问题、贡献、方法、实验)。

创新点:子空间标记

2.核心算法:

相同子空间中论文之间的相似性与三种特征相关:

① CCS分类的相似度;

② reference的相似程度;

③ 在该子空间上的文本中关键词的相似度。

针对上述三种特征,参考BabbleLabble设计基于规则嵌入的深度模型,优化目标包括CCS分类中公共父节点的距离、reference的杰卡德相似系数、从子空间的文本中提取出的关键词的杰卡德相似系数。

创新点:基于规则嵌入的深度模型

(参考了斯坦福发的一篇论文“Training Classifiers with Natural Language Explanations”)

3.开发语言以及开发平台框架

Python
html5 css3 javascript
tensorflow/pytorch

工作内容

1.具体工作内容

1.1数据预处理

①数据集:ACM学术论文数据集(含有子空间标签)、scopus学术论文数据集(不含子空间标签)

②在scopus学术论文数据集上测试“子空间标记模型”

说明:这里的提到的“子空间标记模型”是实验室的前期任务,有直接可用的模型代码,ACM学术论文数据及上的子空间标签也是通过该模型获得的。

1.2核心算法编写

根据“CCS分类的相似度”“reference的相似程度”“在该子空间上的文本中关键词的相似度”这三个规则构建基于规则嵌入的深度模型,优化目标包括CCS分类中公共父节点的距离、reference的杰卡德相似系数、从子空间的文本中提取出的关键词的杰卡德相似系数,训练出一个相似度门限,使得高于门限的论文输出出来。

1.3web网站

主要功能为输入一篇论文的reference或者某个会议某年的论文集合,输出相似论文对。

网站界面设计为可以选择目标论文或目标会议、年份,选择好后,对五个子空间中,论文集合里相似的论文对进行展示。

预期成果

以web网站形式展示,网站功能为可以选择论文,以及会议、年份等信息,形成论文集和,输出该论文集合在五个子空间(研究背景、研究问题、贡献、方法、实验)上的论文相似对。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值