马后炮解释一下为什么swiglu更好

实际上就算swiglu的原作者也是炼丹炼出来的,所以我们只能马后炮解释一下。

首先考虑GLU的缺点。它用sigmoid做门控是个极其糟糕的选择,沾上了sigmoid的通病,即0和1处导数为0,这让门控没法通过训练达到彻底打开or关闭某个值的效果,且只能缩小不能放大。
再考虑swish。你要是看过swish和glu的公公式,你就会说这swish不就是glu的乞丐版嘛。swish单用时,缺点肯定与glu一样。

现在,我们把glu的sigmoid替换成了一个swish,你也可以理解为是glu里面塞了一个阉割版的glu,结果就是glu它自己把自己的问题解决了。你看swish的函数图像,首先它在0和1的位置有导数,好优化,门能关严(指0),还能大开门(指放大),这不就是完美的sigmoid上位替代品嘛。

有人要问为什么不能glu套glu。当然可以,但是肯定是算起来费时间,swish只需要一个超参数beta,剩下的计算大头只有sigmoid,而glu还有训练参数,一训练就又要陷入sigmoid的陷阱里了。既然swish还顶得住,那就先这么用着。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值