基于规则嵌入的论文比对系统(17)-总结

主要工作

构建训练集

在这里插入图片描述
在这里插入图片描述

数据预处理

在这里插入图片描述
在这里插入图片描述

模型搭建

在这里插入图片描述
在这里插入图片描述

工作难点

数据集的构建

训练集的构建非常关键,因为这个关系到了最终模型的训练效果,以及训练完成后的测试效果。如果纯人工的进行标注,来判断这两篇论文在这个子空间上是否相似,或者是否不相似也是可以的,但前提是我们有足够的专业知识和基础,所以这种方法对于我们来说是不可行的。所以最终选择了根据各种相似度的计算进行综合从而选出在不同子空间上用来训练正样本对和负样本对。

模型搭建

规则嵌入部分的思想部分参考了
“Training Classifiers with Natural Language Explanations” 这篇论文,其他部分都是自己设计的。使用双向的LSTM主要是为了更好的获取语义的信息,再和规则的信息进行融合,从而更好的进行两篇论文之间相似关系的表示。

速度问题->优化

整个核心算法部分的运行速度是直接影响最终的呈现效果的。提升运行速度的入手点主要如下:

  • 需要重复运行的代码部分都封装成函数
  • for循环部分代码的调整
  • 数据处理过程中得到的一些后续可能还会用到的列表、字典等结构都存到npy文件里(一共生成了52个有用的npy文件)
  • 函数中有读文件的部分,都移到函数外面,避免后面重复读取文件,浪费时间
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值