构建人工神经网络解决分类问题时，选取softmax激活+交叉熵损失函数组合详解

最新推荐文章于 2024-04-26 19:12:08 发布

CQU_Qin_Chen

最新推荐文章于 2024-04-26 19:12:08 发布

阅读量546

点赞数 1

分类专栏：最优化文章标签：分类概率论机器学习

本文链接：https://blog.csdn.net/m0_51818101/article/details/125015829

版权

最优化专栏收录该内容

7 篇文章 0 订阅

订阅专栏

引例

引自知乎专栏：https://zhuanlan.zhihu.com/p/35709485

输入一个动物图像，来判别所属的动物类别，有三种可能，分别为猫、狗、猪。

我们想要通过构建人工神经网络去处理这个三分类问题，当从最后一层隐藏层向输出层前进时，这个时候我们得到了输出层的输入，我们采用softmax激活函数来获得输出层的输出。softmax激活函数本质上运用了机器学习中的逻辑回归算法。以该问题为例，x表示输出层获得输入， $A_1.A_2.A_3$ 分别代表该图像是猫、狗、猪。我们希望将输入x映射到[0,1]的范围内，并保证映射之后的输入之和为1。以此来将映射之后的结果作为 $A_1,A_2,A_3$ 发生的概率。以概率论的知识去理解，我们就是将隐藏层向输出层的输入转换为 $p\{A_1|x\},p\{A_2|x\},P\{A_3|x\}$ 。在求得概率之后，我们在输出独热码时将概率最大的那一位置1，对应于一种特定的动物。

有了模型之后，我们需要通过定义损失函数来判断模型在样本上的表现了，并以此来指导我们反向传播的过程来更新权重，使得其输出的准确率更高。那么我们可以定义哪些损失函数呢？

在老师给出的手写数字识别例子中，使用的是sigmoid分类器加均方误差作为损失函数的组合。但是这在训练过程中并不会经常使用，原因就在于在分类问题中，使用sigmoid/softmx得到概率，配合MSE损失函数时，采用梯度下降法进行学习时，会出现模型一开始训练时，学习速率非常慢的情况。

因此我们选取一个机器学习分类问题和信息论中一个非常重要的函数：交叉熵损失函数来作为我们损失函数。

如果你想要充分了解交叉熵损失函数，请移步博客：

https://blog.csdn.net/b1055077005/article/details/100152102

前面已经通过softmax求解出图像属于某一种动物的概率，也得到了最终的预测结果的独热编码形式。我们要做的就是让属于每一种动物的概率乘上他对应的独热编码（0或者1）并求和取负，来得到我们最终的损失函数。

但是我们要知道的是，通常一次训练样本数量绝对不会只有1个，也就是通常会输入多张图片。因此完整的交叉熵损失函数对应如下：
$-\frac{1}{N} \sum_i \sum_{c=1}^{M} y_{ic}log(p_{ic})$
其中：M是所要区分的类别数量，即输出层的神经元数量。该问题是3个。

$y_ic$ 代表如果样本i的识别结果属于第c个类别，则为1，否则为0

$p_{ic}$ 代表样本i属于第c个类别的概率。

如果还是不太理解，我们继续结合具体的例子。

在这里插入图片描述

以该问题为例，它的损失函数计算过程如下：

在这里插入图片描述

以上就是输出层到损失函数的完整过程。可以通过一张图片来概括：

在这里插入图片描述

注意：这张图片在理解上存在些许问题，再求解完概率之后，就已经获得了独热编码，并且损失函数值的计算也需要用的独热编码，而不是通过损失函数模块获取独热编码，因此我认为将独热编码放于损失函数模块之前更为合适一些。

CQU_Qin_Chen

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
构建人工神经网络解决分类问题时，选取softmax激活+交叉熵损失函数组合详解

引例引自知乎专栏：https://zhuanlan.zhihu.com/p/35709485输入一个动物图像，来判别所属的动物类别，有三种可能，分别为猫、狗、猪。我们想要通过构建人工神经网络去处理这个三分类问题，当从最后一层隐藏层向输出层前进时，这个时候我们得到了输出层的输入，我们采用softmax激活函数来获得输出层的输出。softmax激活函数本质上运用了机器学习中的逻辑回归算法。以该问题为例，x表示输出层获得输入，A1.A2.A3A_1.A_2.A_3A1.A2.A3分别代表该图像是猫
复制链接

扫一扫