【机器学习-周志华】学习笔记-第五章

vircorns

已于 2022-09-06 22:50:19 修改

阅读量550

点赞数

分类专栏： # 机器学习文章标签：机器学习 python 算法

于 2022-08-26 16:01:05 首次发布

本文链接：https://blog.csdn.net/weixin_43476037/article/details/126394862

版权

机器学习专栏收录该内容

14 篇文章 4 订阅

订阅专栏

记录第一遍没看懂的
记录觉得有用的
其他章节：
        第一章
         第三章
         第五章
         第六章
         第七章
         第八章
         第九章
         第十章
         十一章
         十二章
         十三章
         十四章
         十五章
         十六章

第四章决策树，都是比较基础的概率论的东西，主要就是结合例子去理解概念。

第五章是神经网络模型的介绍，比较难理解的算是5.3 误差逆传播算法。它其实是对梯度计算结果的一个解释，用的其实还是梯度下降法。

也就是说，主要还是微积分多元函数的计算。头疼.jpg

在这里插入图片描述
        可以看到这里是多输出问题，但只关注一个输出的推导即可，其他都是一样的。
        首先看均方误差求偏导，其中公式(5.4)是三层复合函数，第一层是损失函数对输出求导( $E_k \to \bar{y}_j^k$ )，第二层是输出对节点的输入求导( $\bar{y}_j^k\to\beta_j$ )，最后是输入对连接权求导( $\beta_j\to w_{hj}$ )。
在这里插入图片描述
        也就是：

结合公式和定义， $\beta_j=\sum_{h=1}^{q}w_{hj}b_h$ 其实是一个线性的累加，对于每一个h来说，其他项都是常数，导数为0，那么 $\beta_j$ 求导也就是 $b_h$ 。
而激活函数 $Sigmoid(x)=\dfrac{1}{1+e^{-x}}$ 。这个的导数是一个固定公式，推导过程简言之： $(\dfrac{1}{1+e^{-x}})'=-\dfrac{1}{(1+e^{-x})^2}(-1)e^{-x}=\dfrac{e^{-x}+1-1}{(1+e^{-x})^2}=f(x)-f^2(x)$

Sigmoid函数求导推导公式更详细的解释可以参考：sigmoid函数求导-只要四步

        剩下的 $E_k$ 对 $\bar{y}_j^k$ 的求导其实就是一个平方项的求导。
         为了使结果只和下标j有关，把前两层单独提出来，并把梯度下降的负号提过来，得到公式(5.10)。
在这里插入图片描述

         公式(5.14)中关于 $\Delta v_{ih}$ 的计算，其中 $\eta$ 表示步长， $e_hx_i$ 表示下降方向。同样，损失函数对输出 $y_j$ 求导，输出 $y_j$ 对节点的输入 $\beta_j$ 求导，输入对上一层节点的输出 $b_{h}$ 求导，然后上一层节点的输出 $b_{h}$ 对上一层节点的输入 $\alpha_{h}$ 求导，最后 $\alpha_{h}$ 再对 $\Delta v_{ih}$ 求导。
         需要注意的是，此时 $\Delta v_{ih}$ 的每一项会对每一个 $y_j$ 产生影响，所以还是需要 $\sum_j$ 的。
         所幸，损失函数对 $\beta_j$ 的求导在 $g_j$ 中已经完成了。而 $\beta_j$ 对 $b_{h}$ 求偏导类似于上一个 $\beta_j$ 对 $w_{hj}$ 求偏导，也是线性的，结果就为 $w_{hj}$ 。接着下一项，是输出对输入的求导，同样是套用Sigmoid函数的公式，也就是 $b_h(1-b_h)$ ；最后就是 $x_i$ 。
$\begin{aligned} \Delta v_{ih} &=-\eta\sum_j\dfrac{\partial E_k}{\partial \beta_j}\dfrac{\partial \beta_j}{\partial b_h}\dfrac{\partial b_h}{\partial \alpha_h}\dfrac{\partial \alpha_h}{\partial v_{ih}}\\ &=\eta\sum_j g_j w_{hj} b_h(1-b_h)x_i \end{aligned}$

        可以看出，每次都用了上一层的结论(比如这个 $e_h$ 用了 $g_j$ ，那么，如果有更多层，也是可以直接套用这个结果，也就是直接用 $e_h$ 。也就是说，无论多深，都是类似形式。
        BP算法工作流程如下：
在这里插入图片描述
        5.5节的网络其实不算常见了，主要是他们的改进思路。