PyTorch -- 最常见激活函数的选择

CODE_RabbitV

已于 2024-06-15 21:31:08 修改

阅读量846

点赞数 15

分类专栏： PyTorch 学习文章标签： pytorch 人工智能 python

于 2024-06-12 23:10:42 首次发布

本文链接：https://blog.csdn.net/CODE_RabbitV/article/details/139619360

版权

17 篇文章 2 订阅

订阅专栏

首先，简单复习下什么是梯度：梯度是偏微分的集合
- 举例说明：对于 $y^2-x^2: \nabla z= (\frac{\partial z}{\partial x}, \frac{\partial z}{\partial y}) = （2x, 2y）$
获取极小值 minima 的方法核心： $\theta_{t+1}=\theta_t-\alpha\nabla f(\theta_t)$

【torch.sigmoid(x)】 $\text{Sigmoid}(x)=\frac{1}{1+e^{-x}}$
- 优点：连续函数，便于求导，可以用作输出层
- 缺点：在变量取绝对值非常大时会出现饱和现象(函数会变得很平)，且对输入的微小改变会变得不敏感；在反向传播时，当梯度接近于0，容易出现梯度消失，从而无法完成深层网络训练
- 对应类 torch.nn.Sigmoid （layer = torch.nn.Sigmoid(), layer(x) ）
【torch.tanh(x)】 $\text{Tanh}(x) = \frac{e^x-e^{-x}}{e^x+e^{-x}}$ , sigmoid 经过缩放平移获得
- 优点：同 sigmoid 且均值是0 (更好)
- 缺点：仍存在饱和问题
- 对应类 torch.nn.Tanh（layer = torch.nn.Tanh(), layer(x) ）
【torch.relu(x)】 $\text{ReLU}(x)=\max(0,x)$
- 优点：高效；在x>0区域上，不会出现梯度饱和、梯度消失
- 缺点：Dead ReLU Problem (在x<0时，梯度为0：这个神经元及之后的神经元梯度永远为0，不再对任何数据有所响应，导致相应参数永远不会被更新）
- 对应类 torch.nn.ReLU（layer = torch.nn.ReLU(), layer(x) ）