matlab 将一个序列随机打乱_随机生成的Transformer架构

文章探讨了Transformer模型中子层排列顺序的影响,通过实验发现随机打乱self attention和feed forward层可能提高性能,尤其是sandwich架构。研究还发现在某些情况下,保持self attention在下,feed forward在上能优化模型效果,提出的新sandwich transformer模型在语言模型任务上表现出色。
摘要由CSDN通过智能技术生成

之前有被人问到过为什么transformer要采取这样的架构。当然transformer的细节很多,self attention, fully connected layer, residual connection, layer normalization, etc, etc。如果真的要问为什么必须要做这样的设计,说实话我也不知道,我一般会倾向于认为这样的设计有很大的偶然性和随机性在里面。作者就是发现了这个模型能够在翻译任务上取得比之前的LSTM+Attention架构更好的效果,然后这个架构就被广泛采用了。

最近看到一篇文章 Improving Transformer Models by Reordering their Sublayers。作者提出了一个非常有趣的问题,"Could ordering the sublayers in a different pattern lead to better performance?" 也就是说,我们如果把transformer架构中的层与层之间关系随机打乱,会不会让模型取得更好的效果?然后他们确实发现了有一些打乱方法可以让transformer在语言模型的评估上表现更好(perplexity更低)。然后这些架构大多属于 sandwich transformer, 也就是说下面聚集着self attention layers,上面聚集着feed forward layers。

753e5391b703e1ec5d7a82909cb7af19.png
16层self attention和16层feed forward的随机排列
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值