[ICLR2018] A Deep Reinforced Model for Abstractive Summarization

  1. intra-temporal attention 在本文中的应用
    (1)在input sequence上的应用
    这个C t e ^e_t te对应文章中Figure1中的C1(在下文中标出)
    在这里插入图片描述
    (2)在output sequence上的应用
    这里的C t d ^d_t td对应paper中Figure1中的C2(在下文中标出)
    在这里插入图片描述

在这里插入图片描述
2. 生成还是copy
pointer network和copy 机制的目的是为了解决OOV词,首先计算出一个概率值 u t u_t ut用来判断是是生成模式还是copy模式
在这里插入图片描述
那么 p ( u t = 0 ) p(u_t = 0) p(ut=0) = 1- p ( u t = 1 ) p(u_t=1) p(ut=1)
u t u_t ut = 0时是生成模式,那么固定词汇集中词的概率分布是:
在这里插入图片描述
u t u_t ut = 1时是copy模式,input sequence 中每个token的概率分布,其中 a t i e a^e_{ti} atie在encode阶段已计算出。
在这里插入图片描述
那么最终的概率分布计算公式如下:
在这里插入图片描述
3. hybrid learning objective
maximum-likelihood training objective:
在这里插入图片描述
因为maximum-likelihood objective 只能计算唯一的一个序列,并且文本摘要的的评价标准是ROUGE,为了能将评价结果用于训练,并且ROUGE的公式是不可微的,所以提出了用RL中的Policy learning进行训练。本文中用了self-critical policy gradient training algorithm算法。此算法会在下篇博客中详细解释:
在这里插入图片描述
强化学习只是优化了ROUGE这样的评测标准,但不能保证输出的质量和可读性。于是结合了maximum-likelihood。两者结合作为训练目标。
在这里插入图片描述
非常好的文章解释:
https://blog.csdn.net/youngair/article/details/78302794

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值