掩码语言模型处理开放式的长文本生成问题

论文探讨了预训练的掩码语言模型在开放式长文本生成领域的潜力,以及如何克服其在处理长文本时的局限性。通常自回归语言模型如BART和GPT系列在这一领域占据主导地位,但它们在生成长度增加时推断效率降低的问题限制了应用。为了改善这一状况,研究者们提出使用迭代的非自回归(Non-Autoregressive, NAR)解码策略,并结合两种方法——动态滑动窗口注意力(Dynamic Sliding Window Attention, DSWA)和线性温度衰减(Linear Temperature Decay, LTD),来增强MLMs的长文本生成能力。在故事叙述和多段落意见文章撰写等任务中,预训练的MLMs不仅能够达到3到13倍的加速,同时还能保持甚至优于强大的自回归模型的表现。
在这里插入图片描述

1 动态滑动窗口注意力

  • (1)动机:在长文本生成中,传统的自注意力机制允许每个token关注整个上下文序列,这可能导致信息过载和处理效率降低。长距离依赖关系处理不当会导致模型“崩溃”,生成无意义或重复的内容。
  • (2)解决策略:动态滑动窗口注意力通过限制每个token仅能关注其邻近的token来减轻这一问题,而不是整个序列。这种机制类似于卷积神经网络的局部感受野概念,有助于模型更有效地处理长文本。
  • (3)操作方式:使用滑动窗口机制调整自注意力层中每个token的注意力模式。窗口大小是可变的,允许模型根据需要调整关注范围。
  • (4)动态调度公式:Swin = max(αmin, L * αmax) * Sfix其中,Swin是每层的窗口大小;αmin和αmax是调节参数;L是总层数;Sfix是固定窗口大小。调整每一层的窗口大小(Swin),以适应不同的预测需求。
  • (5)优点:减少了大量缺失上下文的影响,避免了多模态分布问题。使输出分布更加集中于信息丰富的token。改善了长文本生成能力,同时保持了较高的推理速度。
  • (6)应用:在训练阶段,使用标准自注意力获取源句子表示,并采用固定窗口大小的滑动窗口混合注意力生成目标。在推理阶段,应用动态滑动窗口注意力到混合注意力层以优化生成过程。

2 模型预测更新机制

  • (1)目的:解决在迭代非自回归解码过程中由于模型仅根据前一次迭代中的低置信度token进行精炼而导致的性能下降问题。
  • (2)工作原理:在训练阶段,模型使用真实标签作为上下文预测被掩码的token。在推理阶段,模型基于随机采样的token作为上下文,但在每次迭代后,会用最新模型预测的token更新整个目标序列,而不仅仅是那些置信度低的token。
  • (3)迭代过程:初始时,目标序列完全由掩码token组成。模型在第一次迭代中预测所有掩码token。随后的迭代中,模型重新生成那些置信度较低的token,但与传统方法不同的是,模型预测更新机制会更新整个目标序列,确保模型预测的一致性和连贯性。
  • (4)优势:通过更新所有目标token,避免了仅精炼部分低置信度token所导致的上下文信息不完整或不一致的问题。有助于在迭代过程中维持并提升生成文本的质量和一致性。
  • (5)实施细节:模型预测更新机制与动态滑动窗口注意力和线性温度衰减(LTD)策略相结合,以实现更有效的长文本生成。在每次迭代后,使用模型的最新预测来更新整个目标序列,确保模型在后续迭代中有最准确的上下文信息。

3 结语

论文介绍了通过利用预训练的掩码语言模型和迭代非自回归解码策略,成功地提高了开放式长文本生成的效率和性能,展示了在故事讲述和意见文章写作任务上,这种方法相比自回归模型能获得显著的速度提升和更好的生成质量。

论文题目:Open-ended Long Text Generation via Masked Language Modeling

论文链接:https://aclanthology.org/2023.acl-long.13/

PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!
在这里插入图片描述

  • 7
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值