交叉熵+softmax的优势

最新推荐文章于 2024-05-13 20:32:49 发布

笺简检渐

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量458

点赞数 2

分类专栏：有趣的数学

本文链接：https://blog.csdn.net/entropyDJ/article/details/103691025

版权

有趣的数学专栏收录该内容

3 篇文章 0 订阅

订阅专栏

交叉熵的一般形式是：
$Σ{p*log(q)}$
其中p一般指的是真实情况概率(标签)，q指的是神经网络计算出的概率(结果)

为了一般化，这里特别规定好：
$输入的训练样本标签为Y：[Y_0,Y_1,...,Y_n]\\ 神经网络计算的结果为A：[A_0,A_1,...,A_n]\\ 交叉熵公式中对数的底数为e,此时log是ln$
令交叉熵(CrossEntropyLoss)=CELoss，其表达式为：
$CELoss(A,Y)=-\sum_{i=0}^{n}{Y_i*lnA_i}$
对交叉熵来说，样本标签Y并不是"变量"，可以看做常数，而神经网络的结果A才是输入的变量。和之前softmax的函数又不一样了，softmax是输入一个序列输出一个序列，这里是输入两个序列输出一个数字！
$\Bigg (\left[ \begin{matrix} A_0\\A_1\\A_2\\.\\.\\.\\A_n \end{matrix} \right]\& \left[ \begin{matrix} Y_0\\Y_1\\Y_2\\.\\.\\.\\Y_n \end{matrix} \right]\Bigg ) =>CELoss(A,Y)=> \left[ \begin{matrix} -Y_0*lnA_0\\-Y_1*lnA_1\\-Y_2*lnA_2\\.\\.\\.\\-Y_n*lnA_n \end{matrix} \right]\Bigg\} \sum=结果(某个确定的数值)$
所以交叉熵的导数就是对这个"结果"所贡献的每个表达式的导数，如下：
$\frac{∂CELoss(A,Y)}{∂A}= \left[ \begin{matrix} \frac{∂L(A_0,Y_0)}{∂A_0}\\ \frac{∂L(A_1,Y_1)}{∂A_1}\\ \frac{∂L(A_2,Y_2)}{∂A_2}\\.\\.\\.\\ \frac{∂L(A_n,Y_n)}{∂A_n} \end{matrix} \right]= \left[ \begin{matrix} -Y_0*lnA_0\\-Y_1*lnA_1\\-Y_2*lnA_2\\.\\.\\.\\-Y_n*lnA_n \end{matrix} \right]'= \left[ \begin{matrix} -\frac{Y_0}{A_0}\\-\frac{Y_1}{A_1}\\-\frac{Y_2}{A_2}\\.\\.\\.\\-\frac{Y_n}{A_n} \end{matrix} \right]\Bigg \}=-\frac{Y_i}{A_i}\Bigg|_{i=0}^{n}$
在深度学习中，如果是希望程序基于输入数据，给出一个置信度，比如MNIST的0-9，我希望给出十个概率，这十个概率加起来等于1，其中最大的概率对应的数字自然就是程序识别的结果了。这种情况我们就可以在神经网络最后一层使用softmax作为激活函数输出A，搭配CELoss作为损失函数了。

根据之前的文章，我们可以知道softmax函数及其导数是：
$A(z_i)=\frac{e^{z_i}}{e^{z_0}+e^{z_1}+...+e^{z_n}} =\frac{e^{z_i}}{\sum_{j=0}^{n}e^{z_j}}\\ \frac{∂A}{∂z_i}=\begin{cases} A_i(1-A_i)\big|_{i=j}\\\\ \sum_{j=0→n}^{j≠i}-A_iA_j \end{cases} =A_i(1-A_i)+\sum_{j=0→n}^{j≠i}-A_iA_j$

结合链式法则，有：
$\frac{∂CELoss}{∂z_i}=\frac{∂CELoss}{∂A}*\frac{∂A}{∂z_i}= \frac{∂CELoss}{∂A_i}*\frac{∂A_i}{∂z_i} +\frac{∂CELoss}{∂\sum A_j}*\frac{∂\sum A_j}{∂z_i}\\ =[-\frac{Y_i}{A_i}*A_i(1-A_i)]\bigg|_{i=j} +[-\frac{Y_i}{A_i}*\sum_{j=0→n}^{j≠i}-A_iA_j]\bigg|_{i≠j}\\ =Y_i*(A_i-1)+\sum_{j=0→n}^{j≠i}Y_iA_j\\ =Y_iA_i+\sum_{j=0→n}^{j≠i}Y_iA_j-Y_i$
计算当i=j时：
$-\frac{Y_i}{A_i}*A_i(1-A_i)=-Y_i+A_iY_i\tag{1}$
当i≠j时：
$-\frac{Y_i}{A_i}*\sum_{j=0→n}^{j≠i}-A_iA_j=\sum_{j=0→n}^{j≠i}\frac{Y_i}{A_i}*A_iA_j =\sum_{j=0→n}^{j≠i}Y_iA_j\tag{2}$
仔细比较(1)和(2)，可以发现(1)的后半段正好就是(2)中缺失的i=j，(1)+(2)的结果如下：
$-Y_i+A_iY_i+\sum_{j=0→n}^{j≠i}Y_iA_j=-Y_i+\sum_{i=0}^{n}Y_iA_i\\ 由于Y是样本标签，每一批只有一个是真实值，其值为1，其它都是0。所以特别地：\\ \sum_{i=0}^{n}Y_iA_i=Y_0A_0+Y_1A_1+...+Y_iA_i+...+Y_nA_n=0+0+...+Y_iA_i+...+0=A_i\\ 这样整个导数的结果就全部求出来了：\frac{∂CELoss}{∂z_i}=A_i-Y_i$

在神经网络中，损失函数和激活函数的选择是很重要的。从上面的结果可以很明显看出softmax和交叉熵的配合是非常好的，它的结果只和A和Y有关，也可以很好地避免梯度弥散，最重要的是其计算只有减法，非常方便和高效，所以一般处理多分类问题都可以使用这两个函数。
此外，二分类问题可以使用交叉熵的特殊情况：二分类交叉熵函数(BCE)和sigmoid函数的配合(它和softmax是一脉相承的)，结果是一样的，这里就不细说了。

笺简检渐

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
交叉熵+softmax的优势

交叉熵的一般形式是：−Σp∗log(q)-Σ{p*log(q)}−Σp∗log(q)其中p一般指的是真实情况概率(标签)，q指的是神经网络计算出的概率(结果)为了一般化，这里特别规定好：输入的训练样本标签为Y：[Y0,Y1,...,Yn]神经网络计算的结果为A：[A0,A1,...,An]交叉熵公式中对数的底数为e,此时log是ln输入的训练样本标签为Y：[Y_0,Y_1,...,Y...
复制链接

扫一扫