基于规则嵌入的论文比对系统任务规划

数据整理/数据爬取

一个人负责
因为我们手里的数据集缺少年份以及会议或者期刊的标识,为了便于后续的web展示,这里需要自己爬取或者根据其他比较全的数据集来完善一下我们手上的ACM 数据集的数据信息,另外在此基础上做一些柱状图的可视化展示。

web搭建

一个人负责
界面需要实现venue、年份或者某篇具体论文的选择,从而根据venue、年份或者某篇论文的参考文献构成一个论文的集合
然后在这个论文集合的基础上,五个子空间(研究背景、研究问题、贡献、方法、实验)上分别输出相似论文对。

核心算法实现

暂时安排的4个人

refference(全局的特征)

    ————输入两篇论文名字就可以(或者其他标识符) 杰卡德相似度

ccs分类(需要构建一棵树)(全局的特征)

    ———输入2篇论文的名字(或是其他标识符)就可以获得这两篇论文的分类所在节点到公共父节点的距离(int)

每个子空间(每个句子)的关键词(局部的特征)

    ———输入:两篇论文标题+子空间label(0,1,2,3,4)——>在该子空间上(具体来说就是两个句子上)的关键词的杰卡德相似度,
         或者文本相似度,或者是这两种相似度的结合,只要输出是一个数字就行

构建训练集

5个子空间上分别构造5个训练集,每个训练集200个论文对左右,论文对既有正样本对,也有负样本对

设计模型

输入是:文本的序列化的向量和三个特征的加和,输出是一个(0,1)之间的数,1代表是正样本对,也就是这两篇论文在这个子空间上是相似的,0代表是负样本对,代表这两篇论文在这个子空间上是不相似的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值