GLU, sparsemax, GELU激活函数

1. GLU/GTU 门控机制激活函数

GLU:
在这里插入图片描述
其中, W , V , b , c W,V,b,c W,V,b,c 都是可以学习的参数。

GTU:
在这里插入图片描述

f(X) = tanh(X*W+b) * O(X*V+c)

2. sparsemax

sparsemax是2016年提出的。

Softmax:
softmax缺点:每个向量位置都有值。
在这里插入图片描述
文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能够输出稀疏概率的Sparsemax。
在这里插入图片描述
这里把输入 z 和某个分布 p 的欧式距离最小化。

一种具体的实现是,
在这里插入图片描述

在这里插入图片描述

3. GELU激活函数

GELU激活函数是2018年提出的,在BERT等模型都有应用。

高斯误差线性单元, GAUSSIAN ERROR LINEAR UNITS (GELUS)
在这里插入图片描述
近似的方法:
在这里插入图片描述
实验效果:
在这里插入图片描述
在这里插入图片描述
pytorch实现:

def gelu(x):
    """Implementation of the gelu activation function.
        For information: OpenAI GPT's gelu is slightly different (and gives slightly different results):
        0.5 * x * (1 + torch.tanh(math.sqrt(2 / math.pi) * (x + 0.044715 * torch.pow(x, 3))))
        Also see https://arxiv.org/abs/1606.08415
    """
    return x * 0.5 * (1.0 + torch.erf(x / math.sqrt(2.0)))

参考:

  1. Language Modeling with Gated Convolutional Networks;
  2. 论文 From Softmax to Sparsemax:
    A Sparse Model of Attention and Multi-Label Classification
  3. GELU 激活函数
  4. GAUSSIAN ERROR LINEAR UNITS (GELUS) 论文
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

rosefunR

你的赞赏是我创作的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值