ACL 2022 | 给注意力升升温，模型摘要的有效蒸馏

最新推荐文章于 2024-05-08 10:15:51 发布

PaperWeekly

最新推荐文章于 2024-05-08 10:15:51 发布

阅读量464

点赞数

文章标签：机器学习人工智能深度学习 java 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/127002587

版权

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

OverView

生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型，为了减少其计算开销，一般使用蒸馏中的伪标记方法。本文中，作者讨论了伪标记方法在获取生成式摘要上存在的问题，并展示了仅仅通过调整注意力温度（Attention temperature）即可提升学生模型生成摘要的能力。

论文标题：

Attention Temperature Matters in Abstractive Summarization Distillation

收录会议：

ACL 2022

论文链接：

https://arxiv.org/abs/2106.03441

Method

自动文本摘要是将长文档改写为较短的形式，同时仍然保留其最重要的内容，一般分为抽取式摘要和生成式摘要，前者直接从文本中抽取主题句形成摘要，而后者生成新的句子来概括文本。由于生成式摘要一般比抽取式摘要效果更好，所以本文主要研究生成式摘要的问题。

生成式摘要问题可以视为一个序列到序列（Seq2Seq）问题，一般依赖于大规模预训练模型。但是由于其推理速度较慢，很难实际部署，所以一般采用知识蒸馏方法将大模型的知识传递给小模型，从而在保持表现相当的情况下提升速度。在 Seq2Seq 模型的蒸馏中，一般采取 pseudo-labling（伪标记 [1]）方法：也即先向教师模型输入所有训练集样本，并让教师模型生成 pseudo-summary（伪摘要），并将其与训练集中原有的 summary 一起用于训练学生模型。

在原有训练模型生成文本摘要时，其目标函数为最大化 log-likelihood：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ACL 2022 | 给注意力升升温，模型摘要的有效蒸馏

©PaperWeekly 原创 · 作者 |werge研究方向 |自然语言处理OverView生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型，为了减少其计算开销，一般使用蒸馏中的伪标记方法。本文中，作者讨论了伪标记方法在获取生成式摘要上存在的问题，并展示了仅仅通过调整注意力温度（Attention temperature）即可提升...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。