模型概述
在深度学习领域,Transformer架构的创新一直是研究热点。本文介绍的模型是一种基于Transformer架构的创新变体, 摒弃了传统的归一化层 ,采用了一种名为 DyT机制 的简单技术来替代。
这种模型结构由多个编码器层和一个解码器层组成,主要应用于自然语言处理任务。通过去除归一化层,模型不仅简化了结构,还在某些任务上展现出了 同等甚至更好的性能 ,为Transformer架构的优化提供了新的思路。
DyT机制
在Transformer架构的创新中,Dynamic Tanh (DyT)机制作为一种革命性的归一化层替代方案,引起了广泛关注。这种简单而高效的技术通过tanh函数对输入进行非线性变换,巧妙地保留了归一化层对极端值的压缩效果。
DyT的数学定义如下:
DyT(x) = γ · tanh(αx) + β
其中,α是一个可学习参数,用于控制tanh函数的缩放因子,tanh函数利用其有界性抑制极端值,γ和β是可学习的、逐通道的向量参数,允许输出调整到任意尺度。
DyT机制的实现非常简洁,仅需9行代码即可完成:
class DyT