bp网络损失函数及梯度推导理解-CSDN博客

本文链接：https://blog.csdn.net/qq_45926473/article/details/123871218

跟随吴恩达老师的机器学习课程学习了一段时间，把最近较难的bp网络的一些推导梳理一下。

一、损失函数

logistic回归

假设只有一个输入样本，则代价函数是：
$J(\theta)=-ylogh(x)-(1-y)log(1-h)$

多个输入样本只要累加就可以：
$J(θ)=−\frac1m[\sum_{i=1}^{m}y^{(i)}logh_θ(x^{(i)})+(1−y^{(i)})log(1−h_θ(x^{(i)}))]$

Neural Network

对于多层神经网络对应的对应损失函数为：
$J(θ)=−\frac1m [ \sum_{i=1}^{m} \sum_{k=1}^{K} y_k^{(i)} logh_θ(x^{(i)})_k + (1−y_k^{(i)}) log(1−h_θ(x^{(i)}))_k]$
这里的大K对应最后网络的输出，当处理二分类时可以直接用一个单元来输出（用0 1来表示结果）
当处理三分类时，网络最后的输出为三个节点，此时输出及数据集标签应当为一个1*3的矩阵
$y=\begin{bmatrix} 1 \\ 0 \\ 0\end{bmatrix}$
$y_k$ 代表y中第k个数所以对比logistic的损失函数，这里只是最后将y中每一行当作输出再累加

二、神经网络正向传播

现在假设有一个三层网络：
在这里插入图片描述

$θ^{(i)}$ 代表第 $i$ 层的参数矩阵
$z^{(l)}$ 代表第 $i$ 层的输入
$a^{(l)}$ 代表第 $i$ 层的输出

传递过程：

$a^{(1)}=x$
$z^{(2)}=θ^{(1)}a^{(1)}$
$a^{(2)}=g(z^{(2)})(add \ a_0^{(2)})$
$z^{(3)}=θ^{(2)}a^{(2)}$
$h=a^{(3)}=g(z^{(3)})$

其中 $g$ 为sigmoid激活函数。

三、神经网络的反向传递

现在我们可以从前往后得到整个网络的损失函数 $J (θ)$
下一步就是用损失函数对我们所给出的参数求偏导得到梯度即 $\bf\frac{\partial J(θ)}{\partial θ^{(2)}}$ $\bf\frac{\partial J(θ)}{\partial θ^{(1)}}$

这里用到链式求导法则 $\bf \frac{\partial J(θ)}{\partial θ^{(2)}}= \bf\frac{\partial J(θ)}{\partial a^{(3)}} \bf\frac{\partial a^{(3)}}{\partial z^{(3)}} \bf \frac{\partial z^{(3)}}{\partial θ^{(2)}}$

损失函数 $J (θ)$
$J(θ)=−\frac1m [ \sum_{i=1}^{m} \sum_{k=1}^{K} y_k^{(i)} log\ h_θ(x^{(i)})_k + (1−y_k^{(i)}) log(1− h_θ(x^{(i)})_k)]\\ =−\frac1m [ \sum_{i=1}^{m} \sum_{k=1}^{K} y_k^{(i)} log(a_k^{(3)}) + (1−y_k^{(i)}) log(1−a_k^{(3)})]$
$\bf\frac{\partial J(θ)}{\partial a^{(3)}}$
$\frac{\partial J(θ)}{\partial a^{(3)}} = −\frac1m [ \sum_{i=1}^{m} \sum_{k=1}^{K} y_k^{(i)} \frac{1}{a_k^{(3)}} + (1−y_k^{(i)}) \frac{-1}{1−a_k^{(3)}}]\\[2ex] =−\frac1m [ \sum_{i=1}^{m} \sum_{k=1}^{K} \frac{y_k^{(i)} -a_k^{(3)}} {a_k^{(3)} (1-a_k^{(3)})}] (通分即可)$
$\bf\frac{\partial a^{(3)}}{\partial z^{(3)}}$
$a^{(3)}=g(z^{(3)})\\[2ex] \frac{\partial a^{(3)}}{\partial z^{(3)}} = a^{(3)} (1-a^{(3)})$
这里涉及到sigmoid函数求导：
$sigmoid函数：f(x)=\frac1{1+{\rm e}^{(-x)}}\\[1ex] f^\prime(x)=f(x)(1-f(x))\\[1ex] (可以自己求一下导)$
$\bf\frac{\partial z^{(3)}}{\partial \theta^{(2)}}$
$z^{(3)}=θ^{(2)}a^{(2)}\\[2ex] \frac{\partial z^{(3)}}{\partial \theta^{(2)}}=a^{(2)}$

最后我们可以得到最终的偏导：
$\frac{\partial J(θ)}{\partial θ^{(2)}}= \frac{\partial J(θ)}{\partial a^{(3)}} \frac{\partial a^{(3)}}{\partial z^{(3)}} \frac{\partial z^{(3)}}{\partial θ^{(2)}}\\[2ex] \ \ \ \ \ =−\frac1m [ \sum_{i=1}^{m} \sum_{k=1}^{K} \frac{y_k^{(i)} -a_k^{(3)}} {a_k^{(3)} (1-a_k^{(3)})}] \ {a^{(3)} (1-a^{(3)})} \ a^{(2)}\\[2ex] =−\frac1m [ \sum_{i=1}^{m} \sum_{k=1}^{K} {y_k^{(i)} -a_k^{(3)}} ] \ a^{(2)}$
我们定义第三层误差值(此处并非真正意义上的误差) $\delta^{(3)}=a^{(3)}-y$
进一步得到：
$\frac{\partial J(θ)}{\partial θ^{(2)}}=\frac1m \ \delta^{(3)} a^{(2)} \\[1ex] (这里做向量化处理省去之前的累加和)$

用同样的方法去计算 $\bf\frac{\partial J(θ)}{\partial θ^{(1)}}$ ，可以得到：
$\frac{\partial J(θ)}{\partial θ^{(1)}}=\frac{\partial J(θ)}{\partial a^{(3)}} \frac{\partial a^{(3)}}{\partial z^{(3)}} \frac{\partial z^{(3)}}{\partial a^{(2)}} \frac{\partial a^{(2)}}{\partial z^{(2)}} \frac{\partial z^{(2)}}{\partial θ^{(1)}}\\[2ex] =\frac1m \ \delta^{(3)}\theta^{(2)}g^\prime(z^{(2)})a^{(1)}$
同样令
$\delta^{(2)}=\delta^{(3)}\theta^{(2)}g^\prime(z^{(2)})$
所以有：
$\frac{\partial J(θ)}{\partial θ^{(1)}}=\frac1m\ \delta^{(2)} a^{(1)}$
最后将 $\bf\frac{\partial J(θ)}{\partial θ^{(2)}}$ $\bf\frac{\partial J(θ)}{\partial θ^{(1)}}$ 相加即为总梯度，之后再用梯度下降或其他优化方法来求解出最佳参数，至此这个三层网络的反向推导就完成了。