结合句子选择器和分开present和absent生成的方法

题目: Select, Extract and Generate: Neural Keyphrase Generation with Syntactic Guidance
网址: https://arxiv.org/pdf/2008.01739.pdf
前沿: 文章中并没有给出代码,要命的是论文等级也没有,不过这篇论文工作没少做,但是总感觉优点实现细节不清不楚,比如:
1.提取器:如何处理选择后的句子和关键词的对应关系,如何处理实际的任务形式;
2.生成器:如何使用选择后的句子也没有说明;
难道19有文章暗示可以这样做吗?为什么碰到好几篇做核心句子提取了。本文创新工作应该是做了提取器和生成器的结合工作,相对应19年应该有做提取器和生成器合成的方法,但是效果一般;另一个创新点就是针对文档做了一个核心句子的提取工作,这个多任务的做法是首先给核心句子打标签,然后训练一个文档中的句子选择器。

感悟: 遴选核心句子作为输入,能够降低输入文本长度,因为在同等的数据条件下,网络的拟合能力是一定的,所以降低句子长度能够降低网络拟合能力的要求,另外更早的暴露语义,也就是说将语义更加合适的暴露在网络中能够帮助网络更快找到结果,也就是所谓的添加规则

Sample
在这里插入图片描述

task 1: 第一个任务就是句子选择器,具体的真实标签采用的就是出现present kp或者overlapping的 kp的句子,可以label 1;否则label 2;然后使用transformer去训练这个句子选择器
task 2: 将第一个任务的句子打成一个句子,也就是说所有预测标签为1的句子打成一个文本输入网络,对每个单词预测1或者0,分别标记当前单词是否出现于关键词中
task 3: 将第二个任务的句子的文本放入训练的网络中,然后生成absent KP。

dataset kp20k以及相关的几个数据集;以及几个Web Document数据集上面。

result
在这里插入图片描述
文章细节处理:

  • 文章中考虑采用针对生成KP的序列标注任务来降低关键词生成的重复率,以及保证生成关键词的多样性等,这个其实也说明了多任务形式的处理有利于生成关键词的多样性;
  • 作者考虑了很多非常丰富的不同embedding方式,并且进行叠加,但是个人感觉这个作用是存在的,但是感觉没那么大,但是有效果你就没话说。。。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值