ACL 2022 | 给注意力升升温,模型摘要的有效蒸馏

e3b79b19c5cf8a8023d7ae66e46835a1.gif

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

54a1b76ed93220f6ce63d77e81aa2ffc.png

OverView

生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型,为了减少其计算开销,一般使用蒸馏中的伪标记方法。本文中,作者讨论了伪标记方法在获取生成式摘要上存在的问题,并展示了仅仅通过调整注意力温度(Attention temperature)即可提升学生模型生成摘要的能力。

cb529694ccae873c1725dca3e757c677.png

论文标题:

Attention Temperature Matters in Abstractive Summarization Distillation

收录会议:

ACL 2022

论文链接:

https://arxiv.org/abs/2106.03441

9d71ee4dac44243b1464cf1d9e9392e8.png

Method

自动文本摘要是将长文档改写为较短的形式,同时仍然保留其最重要的内容,一般分为抽取式摘要和生成式摘要,前者直接从文本中抽取主题句形成摘要,而后者生成新的句子来概括文本。由于生成式摘要一般比抽取式摘要效果更好,所以本文主要研究生成式摘要的问题。

生成式摘要问题可以视为一个序列到序列(Seq2Seq)问题,一般依赖于大规模预训练模型。但是由于其推理速度较慢,很难实际部署,所以一般采用知识蒸馏方法将大模型的知识传递给小模型,从而在保持表现相当的情况下提升速度。在 Seq2Seq 模型的蒸馏中,一般采取 pseudo-labling(伪标记 [1])方法:也即先向教师模型输入所有训练集样本,并让教师模型生成 pseudo-summary(伪摘要),并将其与训练集中原有的 summary 一起用于训练学生模型。

在原有训练模型生成文本摘要时,其目标函数为最大化 log-likelihood:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值