深度学习基础（一） —— softmax 及 logsoftmax

最新推荐文章于 2024-06-09 09:56:07 发布

五道口纳什

最新推荐文章于 2024-06-09 09:56:07 发布

阅读量2.7w

点赞数 6

分类专栏：深度学习

本文链接：https://blog.csdn.net/lanchunhui/article/details/51248184

版权

深度学习专栏收录该内容

61 篇文章 9 订阅

订阅专栏

softmax：重新定义了多层神经网络的输出层（output layer），注意仅和输出层有关系，和其他层无关。

softmax function，也称为 normalized exponential（指数族分布的观点）；

1. softmax

我们知道在神经网络的前馈（feedforward）的过程中，输出层的输入（input）为：

z L j = \sum k w L j k \cdot a L - 1 k + b L j

$z_j^L=\sum_{k}w_{jk}^L\cdot a_{k}^{L-1}+b_j^L$

在 softmax 的机制中，为获得输出层的输出（也即最终的输出），我们不是将 sigmoid 函数作用于其上，

a L j = σ (z L j)

$a_j^L=\sigma(z_j^L)$

而是采用所谓的 softmax function：

a L j = e z L j \sum k e z L k

$a_j^L=\frac{e^{z_j^L}}{\sum_ke^{z_k^L}}$

因此：

（1）输出层输出之和为 1

$\sum k a L k = \sum k e z L k \sum k e z L k = 1$ $\sum_ka_k^L=\frac{\sum_ke^{z_k^L}}{\sum_ke^{z_k^L}}=1$

因为输出层的输出之和为1，其中一项增加，其他所有项则会相应减少。
（2）输出层全部输出均为正：
而且 softmax 的机制，也保证了所有的输出均为正值；

终上所述，softmax 层的输出其实为一种概率分布（probability distribution），因此对于一个多 label 的分类任务（比如手写字符识别，0-9）而言， $a_j^L$ 对应于最终的分类结果为 $j$ 的概率。

2. logsoftmax

\log σ (x_{i}) = \log \frac{\exp (x_{i})}{\sum_{j} \exp (x_{j})} = x_{i} - \log (\sum_{j} \exp (x_{j}))

$\log\sigma(x_i)=\log \frac{\exp(x_i)}{\sum_j \exp(x_j)}=x_i-\log(\sum_j \exp(x_j))$

将原始数据从 x ⇒ log (x)，无疑会原始数据的值域进行一定的收缩。

进一步地，还可对原始数据进行进一步的预处理（ $x_i=x_i-\max(x)$ ），

# 假设 x 是一个向量
def logsoftmax(x):
    m = T.max(x)
    exp_x = T.exp(x-m)
    Z = T.sum(exp_x)
    return x-m-T.log(Z)

3. 梯度计算与反向更新

label 有 $m$ 个不同取值，则：

o_{i} (z) = softmax (z_{i}) = \frac{\exp (z_{i})}{\sum_{j} \exp (z_{j})}, i = 1, 2, \dots, m

$o_i(z)=\text{softmax}(z_i)=\frac{\exp(z_i)}{\sum_j\exp(z_j)}, \quad i=1,2,\cdots, m$

$y_i$ 是对激活值 $z_i$ 的概率化， $\{y_i\}_{i=1,2,\cdots, m}$ 构成输出预测的概率分布。其具有很好的求导性质：

\partial o i ( z ) \partial z i = = = = exp ( z i ) \sum j exp ( z j ) - exp 2 ( z i ) \sum 2 j exp ( z j ) exp ( z i ) \sum j exp ( z j ) \cdot \sum j exp ( z j ) - exp ( z i ) \sum j exp ( z j ) exp ( z i ) \sum j exp ( z j ) \cdot (1 - exp ( z i ) \sum j exp ( z j )) o i (z) (1 - o i (z))

$\begin{split} \frac{\partial o_i(z)}{\partial z_i}=&\frac{\exp(z_i)\sum_j\exp(z_j)-\exp^2(z_i)}{\sum^2_j\exp(z_j)}\\ =&\frac{\exp(z_i)}{\sum_j\exp(z_j)}\cdot\frac{\sum_j\exp(z_j)-\exp(z_i)}{\sum_j\exp(z_j)}\\ =&\frac{\exp(z_i)}{\sum_j\exp(z_j)}\cdot (1-\frac{\exp(z_i)}{\sum_j\exp(z_j)})\\ =&o_i(z)(1-o_i(z)) \end{split}$

有时会取 softmax 的负对数形式作为损失函数：

L = - log o i (z) = - log exp ( z i ) \sum j exp ( z j ) = - z i - log \sum j (exp (z j))

$L=-\log o_i(z)=-\log \frac{\exp(z_i)}{\sum_j\exp(z_j)}=-z_i-\log\sum_j(\exp(z_j))$

在反向求导时，需要计算负对数似然关于 $z_i$ 的导数：

\partial L \partial z i = - 1 - exp ( z i ) \sum j exp ( z j ) = - 1 - σ i (z)

$\frac{\partial L}{\partial z_i}=-1-\frac{\exp(z_i)}{\sum_j\exp(z_j)}=-1-\sigma_i(z)$

五道口纳什

关注

6
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
4
评论
深度学习基础（一） —— softmax 及 logsoftmax

softmax：重新定义了多层神经网络的输出层（output layer），注意仅和输出层有关系，和其他层无关。我们知道在神经网络的前馈（feedforward）的过程中，输出层的输入（input）为： zLj=∑kwLjk⋅aL−1k+bLjz_j^L=\sum_{k}w_{jk}^L\cdot a_{k}^{L-1}+b_j^L在 softmax 的机制中，为获得输出层的输出（也即最终的
复制链接

扫一扫