为什么GAU能做到这些?很简单,因为在默认设置之下,理论上
G
A
U
(
x
l
)
GAU(x_l)
GAU(xl)相比
x
l
x_l
xl几乎小了两个数量级,全文转载自:https://kexue.fm/archives/8990
门控注意力单元(GAU)还需要Warmup吗?
最新推荐文章于 2024-05-18 22:06:58 发布