听说Attention与Softmax更配哦～

最新推荐文章于 2023-08-31 17:46:16 发布

PaperWeekly

最新推荐文章于 2023-08-31 17:46:16 发布

阅读量547

点赞数 1

文章标签：人工智能机器学习深度学习神经网络算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124071038

版权

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

不知道大家留意到一个细节没有，就是当前 NLP 主流的预训练模式都是在一个固定长度（比如 512）上进行，然后直接将预训练好的模型用于不同长度的任务中。大家似乎也没有对这种模式有过怀疑，仿佛模型可以自动泛化到不同长度是一个“理所应当”的能力。

当然，笔者此前同样也没有过类似的质疑，直到前几天笔者做了 Base 版的 GAU 实验后才发现 GAU 的长度泛化能力并不如想象中好。经过进一步分析后，笔者才明白原来这种长度泛化的能力并不是“理所当然”的......

模型回顾

在FLASH：可能是近来最有意思的高效Transformer设计中，我们介绍了“门控注意力单元 GAU”，它是一种融合了 GLU 和 Attention 的新设计。

除了效果，GAU 在设计上给我们带来的冲击主要有两点：一是它显示了单头注意力未必就逊色于多头注意力，这奠定了它“快”、“省”的地位；二是它是显示了注意力未必需要 Softmax 归一化，可以换成简单的除以序列长度：

这个形式导致了一个有意思的问题：如果我们预训练的时候尽量将样本整理成同一长度（比如 512），那么在预训练阶段 n 几乎一直就是 512，也就是说 n 相当于一个常数，如果我们将它用于其他长度（比如 64、128）微调，那么这个 n 究竟要自动改为样本长度，还是保持为 512 呢？

直觉应该是等于样本长度更加自适应一些，但答案很反直觉：n 固定为 512 的微调效果比 n 取样本长度的效果要明显好！这就引人深思了......

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
听说Attention与Softmax更配哦～

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 追一科技研究方向 | NLP、神经网络不知道大家留意到一个细节没有，就是当前 NLP 主流的预训练模式都是在一个固定长度（比如 512）上进行，然后直接将预训练好的模型用于不同长度的任务中。大家似乎也没有对这种模式有过怀疑，仿佛模型可以自动泛化到不同长度是一个“理所应当”的能力。当然，笔者此前同样也没有过类似的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。