SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体,公式如下:
SwiGLU ( x , W , V , b , c , β ) = Swish β ( x W + b ) ⊗ ( x V + c ) \operatorname{SwiGLU}(x, W, V, b, c, \beta)=\operatorname{Swish}_\beta(x W+b) \otimes(x V+c) SwiGLU(x,W,V,b,c,β)
SwiGLU激活函数
最新推荐文章于 2025-02-28 00:15:00 发布