基于规则嵌入的论文比对系统（17）-总结

qq_43665502

于 2020-06-29 12:06:17 发布

阅读量159

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43665502/article/details/107017708

版权

总结

主要工作
工作难点

主要工作

构建训练集

在这里插入图片描述

数据预处理

在这里插入图片描述

模型搭建

在这里插入图片描述

工作难点

数据集的构建

训练集的构建非常关键，因为这个关系到了最终模型的训练效果，以及训练完成后的测试效果。如果纯人工的进行标注，来判断这两篇论文在这个子空间上是否相似，或者是否不相似也是可以的，但前提是我们有足够的专业知识和基础，所以这种方法对于我们来说是不可行的。所以最终选择了根据各种相似度的计算进行综合从而选出在不同子空间上用来训练正样本对和负样本对。

模型搭建

规则嵌入部分的思想部分参考了
“Training Classiﬁers with Natural Language Explanations” 这篇论文，其他部分都是自己设计的。使用双向的LSTM主要是为了更好的获取语义的信息，再和规则的信息进行融合，从而更好的进行两篇论文之间相似关系的表示。

速度问题->优化

整个核心算法部分的运行速度是直接影响最终的呈现效果的。提升运行速度的入手点主要如下：

需要重复运行的代码部分都封装成函数
for循环部分代码的调整
数据处理过程中得到的一些后续可能还会用到的列表、字典等结构都存到npy文件里（一共生成了52个有用的npy文件）
函数中有读文件的部分，都移到函数外面，避免后面重复读取文件，浪费时间

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。