碎片笔记|可训练&非自回归解码策略

前言:前段时间在和学长的一次讨论中听他偶然提到一句可训练的解码策略,觉得很新鲜,于是便有了这篇文章。本文大致讲述一下可训练解码策略的发展历程及几个经典工作的思路。(本文初稿写于2023年3月16日)

常规的解码策略一般指自回归式解码策略,主要包括:贪婪搜索、集束搜索、top-k以及top-p采样,其主要思想是参照已生成的信息逐个生成文本,由于不是本文重点,这里不展开介绍,详细内容参见本篇博客


解码策略优化方向

解码策略的优化方向有很多,比如风格转换、解码速度、提高丰富性等,下面就根据解码策略的优化方向为分类依据对现有工作展开介绍。

风格转换

一个精心设计的解码策略也可以当作是可控文本生成的一种方法。比如控制生成文本的风格、情绪等信息。

解码速度

注意阐明是对哪种解码策略进行改进

Speeding Up Neural Machine Translation Decoding by Shrinking Run-time Vocabulary (ACL, 2017)
主要思想:通过在测试阶段缩减词表提高解码速率

Noisy Parallel Approximate Decoding for Conditional Recurrent Language Model (2016 arXiv) 纽约大学(Kyunghyun Cho)
主要思想:Noisy Parallel Approximate Decoding

非自回归解码策略

通过并行生成文本,提高解码速度。最大特点就是并行,也是因为并行,解码速度大大提升。(重点关注文中是以什么代价换取的速率提升)

Trainable Greedy Decoding for Neural Machine Translation (EMNLP, 2017) 香港大学 纽约大学(Kyunghyun Cho)
主要思想:使用强化学习的方法设计一个可训练贪婪解码策略

A Stable and Effective Learning Strategy for Trainable Greedy Decoding (ACL, 2018) 香港中文大学;纽约大学(Kyunghyun Cho)
主要思想:在几乎不增加计算开销的前提下,将集束搜索功能发挥到最大

Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation (ACL, 2019) 中科院
主要思想:在纯非自回归模型和自回归模型之间取一个折中,添加一个序列信息模块


参考资料

  1. 神经机器翻译的训练改进和解码提速_测试_DataFunTalk_InfoQ精选文章
  2. 可控自然文本生成(报告-译) - 知乎 (zhihu.com)
  3. Controllable Neural Text Generation | Lil’Log (lilianweng.github.io)
  4. 2020 ICLR THE CURIOUS CASE OF NEURAL TEXT DeGENERATION
  5. How to generate text: using different decoding methods for language generation with Transformers (huggingface.co)
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值