激活函数（ReLU、Sigmoid、Softmax）

最新推荐文章于 2024-06-12 19:05:47 发布

十里清风

最新推荐文章于 2024-06-12 19:05:47 发布

阅读量1.4k

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/sinat_34072381/article/details/105836874

版权

深度学习专栏收录该内容

31 篇文章 3 订阅

订阅专栏

文章目录

Linear
Non-linarites
Sigmoid
Softmax
Softmax and Multi-Classification

Linear

基于仿射变换的输出单元 $\hat{y}=\pmb w^\top\pmb x +b$ ，因其不具有非线性，这些单元一般称为线性单元.

线性输出层常用于产生高斯分布均值：
$p(y|\pmb x)=\mathcal N(y;\hat y, I)$
最大化其对数似然，等价于最小化均方误差. 线性单元不会饱和，易于基于梯度优化.

Non-linarites

常见的非线性激活函数

tanh仅重新缩放和移动sigmoid，使输出变为[-1,1]：
$\tanh(z)=2\text{logistic}(2z)-1$
logistic和tanh运算复杂，且饱和区梯度消失，人们提出hard tanh较好的解决了上述问题，从而衍生出ReLU.

ReLU具有以下性质：

非零范围内仅有一个斜率，具有良好的梯度回流，训练速度快；
每个单元要么处于激活状态、要么处于终止状态；

Sigmoid

目标：二分类类别 $y$ 为0或1，预测 $P(y|\pmb x)$ 的概率，概率值位于 $[0, 1]$ 之间.

令 $z=\pmb w^\top\pmb x+b$ ，sigmoid函数预测输出为1的概率，并使得无论输出多少均有较大的梯度，则类1概率
$\hat P(y=1|\pmb x) = \sigma(\pmb w^\top\pmb x+b)=\sigma(z)=1/(1+\exp(-z))$
以 $z$ 值定义 $y$ 的概率分布：
$\begin{aligned} P(y=1|\pmb x)=\sigma(z)\\[1ex] P(y=0|\pmb x)=1-\sigma(z)=\sigma(-z) \end{aligned}\implies P(y|\pmb x)=\sigma((2y-1)z)$
极小化负对数似然（抵消sigmoid函数中指数项），损失函数变为softplus函数为
$J(\theta)=-\log P(y|\pmb x)=-\log\sigma((2y-1)z)=\zeta((1-2y)z)$

Softmax

softmax函数为sigmoid函数的扩展，可表示具有n个可能值（n个类别的概率）的离散型随机变量的分布. “soft”术语表示softmax函数连续可微，是argmax函数的软化版本.

若线性层预测的输出为 $\pmb z=\pmb w^\top\pmb h +\pmb b$ （过度参数化，实际有1个变量固定），softmax函数对其指数化和归一化获得概率分布
$\text{softmax}(\pmb z)=\frac{\exp(\pmb z)}{\sum_j\exp(\pmb z_j)}$
使用最大化对数似然训练softmax来输出目标概率时
$\log P(y=i;\pmb z)=\log\text{softmax}(\pmb z)_i=z_i-\log\sum_j\exp(z_j)$
极小化交叉熵中对数项将softmax中的指数项被消除，即式中第一项 $z_i$ 使得概率不会饱和，第二项大致近似于 $max_jz_j$ ，即任何明显小于 $max_jz_j$ 的 $z_k$ 和 $exp(z_k)$ 都可忽略，总是惩罚最不正确的预测.

当正确答案已是softmax的最大输入，则softmax输出接近0，此时该样本对整体训练代价贡献很小.

softmax的常用变体（variants）形式
$\text{softmax}(z)=\text{softmax}(z-\max_iz_i)$
利用该性质可降低数值误差，提高数值稳定性，即使 $\pmb z$ 包含极正或极负的情况.

Softmax and Multi-Classification

$m$ 个样本 $\pmb x \in \R^n$ , 类别总数为 $k$ , 每个类别 $j$ 对应各自的模型参数 $\theta_j=(\pmb w_j, b)$ , $\pmb {\hat x}=(\pmb x, 1)$ .

模型参数矩阵
$\Theta = \begin{bmatrix} w_{11} &\cdots &w_{1n} &b_1 \\ \vdots &\ddots & &\vdots \\ w_{k1} &\cdots &w_{kn} &b_k \end{bmatrix}$
softmax定义类别概率
$p(y=j|\pmb{\hat x};\Theta)= \frac{\exp(\pmb\theta_j^T\pmb{\hat x})}{\sum_{l=1}^k\exp(\pmb\theta_l^T\pmb{\hat x})}$
预测函数输出（所有类别概率和为1）
$h_\Theta(\pmb{\hat x})= \begin{bmatrix} p(y=1|\pmb{\hat x},\pmb\theta_1)\\ \vdots\\ p(y=k|\pmb{\hat x},\pmb\theta_k)\\ \end{bmatrix} = \frac{1}{\sum_{l=1}^k\exp(\pmb\theta_l^T\pmb{\hat x})} \begin{bmatrix} \exp(\pmb\theta_1^T\pmb{\hat x})\\ \vdots\\ \exp(\pmb\theta_k^T\pmb{\hat x}) \end{bmatrix}$

交叉熵作为损失函数
$J(\Theta) = -\sum_{i=1}^m\sum_{j=1}^k 1\{y_i=j\}\ln \frac{\exp(\pmb\theta_j^T\pmb{\hat x}_i)}{\sum_{l=1}^k\exp(\pmb\theta_l^T\pmb{\hat x}_i)}$
对于单一样例 $(\pmb{\hat x}, y)$ , 考虑以下两种情况求解 ${\partial J}/{\partial \pmb\theta_j}$ ：
$\frac{\partial J(\Theta)}{\partial \pmb\theta_j} = \begin{cases} -\pmb{\hat x}(1 - \dfrac{\exp(\pmb\theta_j^T\pmb{\hat x}_i)}{\sum_{l=1}^k\exp(\pmb\theta_l^T\pmb{\hat x}_i)}), & y=j \\[5ex] -\pmb{\hat x}(0 - \dfrac{\exp(\pmb\theta_j^T\pmb{\hat x})}{\sum_{l=1}^k \exp(\pmb\theta_l^T\pmb{\hat x})}), & y \neq j \\ \end{cases}$

梯度方向
$\nabla_{\pmb\theta_j} J(\Theta) = -\sum_{i=1}^m \pmb{\hat x}_i(1\{y_i =j\} - p(y_i=j|\pmb{\hat x_i};\Theta))$

十里清风

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
激活函数（ReLU、Sigmoid、Softmax）

文章目录LinearNon-linaritesSigmoidSoftmaxSoftmax and Multi-ClassificationLinear基于仿射变换的输出单元y^=w⊤x+b\hat{y}=\pmb w^\top\pmb x +by^=www⊤xxx+b，因其不具有非线性，这些单元一般称为线性单元.线性输出层常用于产生高斯分布均值：p(y∣x)=N(y;y^,I)p(y|...
复制链接

扫一扫

专栏目录