softmax多分类问题中的几个问题

最新推荐文章于 2024-08-14 17:37:35 发布

西瓜皮装猕猴桃

最新推荐文章于 2024-08-14 17:37:35 发布

阅读量805

点赞数 1

分类专栏： Tensorflow学习文章标签： tensorflow 人工智能深度学习神经网络算法

本文链接：https://blog.csdn.net/qq_45777142/article/details/106582798

版权

Tensorflow学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

这个，在tenorflow 2.0 学习softmax多分类问题时遇到的几个问题，在这里和大家分享，包括损失函数的推导，还有数字编码和独热编码使用不同 loss function 的区别和联系。

修仙炼丹时遇到的几个问题

一 . 为什么用交叉熵loss function 而不用MSE（包含推导）?
二 . categorical_crossentropy和sparse_categorical_crossentropy的区别

一 . 为什么用交叉熵loss function 而不用MSE（包含推导）?

原因之一:

因为我们必须知道，softmax函数在神经网络输出层的最后将所有的结果都变成概率分布的形式，比如我们对一个物品归类，它属于鞋子的概率是30%，属于上衣的概率是50%，而属于裤子的概率是20%（当然所用标签的概率之和肯定为1），我们最后只需返回最大概率的结果对应的标签就完成了归类！

而我们熟知的MSE似乎无法完成这个任务，无法以概率的形式输出结果！

原因之二：

先看看MSE长啥样: $\frac{1}{2} (a-y)^{2}$ ,其中，这个 a 为神经元实际输出的值，y是真实值！激活函数我们用的都是: $s i g m o i d$ 函数，假设有以下反向传播途径：
$z_{1} = w_{1}x +b_{1} ; \\ a_{1} =sigmoid(z_{1})\\ z_{2} = w_{2}a_{1} +b_{2} ; \\ a_{2} =sigmoid(z_{2})$

我们知道深度学习的训练过程是通过梯度下降法反向传播更新参数值，具体来说，每一次前向传播结束后，通过对损失函数+激活函数反向在每一层对每个w和b参数进行求导，得到，得到 $\frac{dL}{dw}$ 和 $\frac{dL}{db}$ 的值，最后更新w和b,f反复该操作，最终是y与a无线接近！
在这里插入图片描述

使用MSE：
L函数求导为： $L^{'} (a, y) = a - y$
sigmoid函数求导为: $a^{'} (z) = a (1 - a)$
我们对 $w_{2}$ 进行求导，由链式法则可知:
$\frac{dL}{dw_{2}} = \frac{dL}{da_{2}} \cdot \frac{da_{2}}{dz_{2}}\cdot \frac{dz_{2}}{dw_{2}}$
最后得到:
$\frac{dL}{dw_{2}} = (a_{2}-y) \cdot a_{2}(1-a_{2}) \cdot a_{1}$

使用sparse_categorical_crossentropy：

首先我们要知道交叉熵的函数是这样的:
$L=-\sum_{i} y_{i} \ln a_{i}$

这里给出简单的推导（可看可不看，会用就行！）:
$\frac{\partial L}{\partial z_{i}}=\sum_{j}\left(\frac{\partial L_{j}}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{i}}\right)$

好，接下来推括号中的第一项：
$\frac{\partial L_{j}}{\partial a_{j}}=\frac{\partial\left(-y_{j} \ln a_{j}\right)}{\partial a_{j}}=-y_{j} \frac{1}{a_{j}}$
第二项分为 $i = j$ 与 $i\neq j$ ：

$i = j$ 时：
$\frac{\partial a_{i}}{\partial z_{i}}=\frac{\partial\left(\frac{e^{i_{i}}}{\sum_{k} e^{i k}}\right)}{\partial z_{i}}=\frac{\sum_{k} e^{z_{k}} e^{z_{i}}-\left(e^{z_{i}}\right)^{2}}{\left(\sum_{k} e^{z_{k}}\right)^{2}}=\left(\frac{e^{z_{i}}}{\sum_{k} e^{z_{k}}}\right)\left(1-\frac{e^{z_{i}}}{\sum_{k} e^{z_{k}}}\right)=a_{i}\left(1-a_{i}\right)$
$i\neq j$ 时： $\frac{\partial a_{j}}{\partial z_{i}}=\frac{\partial\left(\frac{e^{i j}}{\sum_{k} e^{x}}\right)}{\partial z_{i}}=-e^{z_{j}}\left(\frac{1}{\sum_{k} e^{z_{k}}}\right)^{2} e^{z_{i}}=-a_{i} a_{j}$

最后得到： $\begin{aligned} \frac{\partial C}{\partial z_{i}} &=\sum_{j}\left(\frac{\partial C_{j}}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{i}}\right)=\sum_{j=j i}\left(\frac{\partial C_{j}}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{i}}\right)+\sum_{i=j}\left(\frac{\partial C_{j}}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{i}}\right) \\ &=\sum_{j=j i}-y_{j} \frac{1}{a_{j}}\left(-a_{i} a_{j}\right)+\left(-y_{i} \frac{1}{a_{i}}\right)\left(a_{i}\left(1-a_{i}\right)\right) \\ &=\sum_{j=j i} a_{i} y_{j}+\left(-y_{i}\left(1-a_{i}\right)\right) \\ &=\sum_{j=i} a_{i} y_{j}+a_{i} y_{i}-y_{i} \\ &=a_{i} \sum_{j} y_{j}-y_{i} \end{aligned}$