GAU的长度泛化能力问题

当前NLP预训练模型通常在固定长度如512上训练,但在实际应用中面临长度泛化问题。文章指出GAU模型的长度泛化能力不足,提出了三种解决方案:1)预训练和微调使用相同长度;2)预训练时混合不同长度样本;3)添加归一化因子让模型自我学习。
摘要由CSDN通过智能技术生成

当前NLP主流的预训练模式都是在一个固定长度(比如512)上进行,然后直接将预训练好的模型用于不同长度的任务中。大家似乎也没有对这种模式有过怀疑,仿佛模型可以自动泛化到不同长度是一个“理所应当”的能力。笔者做了Base版的GAU实验后才发现GAU的长度泛化能力并不如想象中好
我们可以总结出GAU的三个解决方案:

  • 一是预训练和微调都用同一个固定的n;
  • 二是依然使用动态的样本长度n,但是预训练时需要用不同长度的样本来混合训练,不能只使用单一长度的样本;
  • 三就是像Softmax那样补充上一个归一化因子,让模型自己去学。以下转载自 https://kexue.fm/archives/9019
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值