【深度学习笔记】softmax函数

最新推荐文章于 2024-08-06 21:06:26 发布

陈梦酱汁

最新推荐文章于 2024-08-06 21:06:26 发布

阅读量1.3k

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/jaz_y/article/details/107642756

版权

在深度学习中，我们经常可以在模型最后的输出层看到softmax的身影。
softmax函数定义为 $softmax(x)_i = \frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}}$
softmax函数的输入端是N×1的向量，输出的尺寸也依然是N×1。同时，从定义中我们可以看到，softmax函数是将向量中的各个数值映射到一个定义域为[0,1]的集合中，并且所有映射后的和为1。
我们也可以将这个输出其视作概率，即是某一个分类的概率，之后再通过与真实值比较将误差回传从而进行训练模型。

而对于softmax的损失，则常用交叉熵损失来定义。交叉熵损失，是根据信息论中对熵的相关定义所推演而来。对于信息熵的定义我们都已知，且通常是只有一个概率分布，但是当进行描述损失时，会有两个概率分布（假设为P(x)和Q(x)），即一个是输出的结果，另一个是真实的概率分布，这是我们就要想到用来描述两个分布的差异的KL散度(Kullback-Leibler(KL) divergence)： $D_{KL}(P\mid\mid Q) = \Bbb{E}_{x \sim P}\left[ log\frac {P(x)} {Q(x)} \right] = \Bbb{E}_{x \sim P}\left[ logP(x) - logQ(x) \right]$ 即： $D_{KL}(P\mid\mid Q) = H(P(x)) - \Bbb{E}_{x \sim P}logQ(x)$ 对于第二项我们发现是两个分布都参与进行计算，我们称之为交叉熵，即： $\Bbb{E}_{x \sim P}logQ(x) = -\sum P(x)logQ(x)$ 通常P(x)是真实分布，Q(x)是softmax的输出分布，对于真实分布，通常只有一个一项值为1，其余为0，这也减少了一部分的计算量。

此外，在进行计算时，需要注意到softmax数值上溢或者下溢，即当x取值较大，由于指数计算会出现NAN，当取值为很小的负数，又会出现四舍五入为零的现象。因此我们通常可以将x的softmax(z)函数输入定义为 $z = x - c$ ，这样也并不会影响到最后的计算结果： $softmax(x)_i = \frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}} = softmax(z)_i = \frac{e^{x_i-c}}{\sum_{j=1}^n e^{x_j-c}}$ 通常我们选择减去最大的数。