西瓜书神经网络公式详细推导

最新推荐文章于 2024-02-04 21:01:11 发布

LouHerGetUp

最新推荐文章于 2024-02-04 21:01:11 发布

阅读量1.8k

点赞数 12

分类专栏：机器学习文章标签：机器学习神经网络算法

本文链接：https://blog.csdn.net/CSDNLHCC/article/details/104772203

版权

机器学习专栏收录该内容

48 篇文章 0 订阅

订阅专栏

声明：本文是对西瓜书中第五章神经网络中公式推导过程补充，文章作为自己的学习笔记，欢迎大家于本人学习交流。未经本人许可，文章不得用于商业用途。转载请注明出处

本文章参考

作者：周志华书名：《机器学习》出版社：清华大学出版社
南瓜书项目链接地址：https://datawhalechina.github.io/pumpkin-book/#/

感谢此书籍和项目的原创者
如有侵犯您的知识产权和版权问题，请通知本人，本人会即时做出处理并删除文章

Email：louhergetup@163.com

感知机

感知机的定义

假设输入空间是 $\mathcal{X} \subseteq R^{n}$ ，输出空间是 $\mathcal{Y}=\{1,0\}$ 。输入 $\boldsymbol{x} \in \mathcal{X}$ 表示实例的特征向量，对应于输入空间的点；输出 $\in \mathcal{Y}$ 表示实例的类别。由于输入空间到输出空间的如下函数
$f(x)=\operatorname{sgn}\left(w^{T} x+b\right)$
称为感知机。其中 $w$ 和 $b$ 为感知机模型参数， $s g n$ 是阶跃函数，即
$\operatorname{sgn}(z)=\left\{\begin{array}{ll} 1, & z \geqslant 0 \\ 0, & z<0 \end{array}\right.$

感知机的几何解释

线性方程 $w^{T} x+b=0$ 对应于特征空间（输入空间） $R^{n}$ 中的一个超平面 $S$ , 其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。这个超平面将特征空间划分为两个部分。位于两边的点(特征向量)分别被分为正、负两类。因此，超平面 $S$ 称为分离超平面，如图所示

在这里插入图片描述

学习策略

假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的超平面。为了找出这样的超平面 $S$ ，即确定感知机模型参数 $w$ 和 $b$ ,需要确定一个学习策略，即定义损失函数并将损失函数极小化。损失函数的一个自然选择是误分类点的总数。但是，这样的损失函数不是参数 $w$ 和 $b$ 的连续可导函数，不易优化，所以感知机采用的损失函数为误分类点到超平面的总距离。

输入空间 $R^{n}$ 中点 $\boldsymbol{x}_{0}$ 到超平面 $S$ 的距离公式为
$\frac{\left|w^{T} x_{0}+b\right|}{\|w\|}$
其中， $\|\boldsymbol{w}\|$ 表示向量 $w$ 的模长。若将 $b$ 看成哑结点，也即合并进 $w$ 可得
$\frac{\left|\hat{w}^{T} \hat{x}_{0}\right|}{\|\hat{w}\|}$
设误分类点集合为 $M$ ,那么所有误分类点到超平面 $S$ 的总距离为
$\sum_{\hat{x}_{i} \in M} \frac{\left|\widehat{w}^{T} \hat{x}_{i}\right|}{\|\widehat{w}\|}$
又因为，对于任意误分类点 $\hat{\boldsymbol{x}}_{i} \in M$ 来说都有
$\left(\hat{y}_{i}-y_{i}\right) \hat{w}^{T} \hat{x}_{i}>0$
其中， $\hat{y}_{i}$ 为当前感知机的输入。于是所有误分类点到超平面 $S$ 的总距离可改写为
$\sum_{\hat{x}_{i} \in M} \frac{\left(\hat{y}_{i}-y_{i}\right) \hat{w}^{T} \hat{x}_{i}}{\|\hat{w}\|}$
不考虑 $\frac{1}{\|\hat{w}\|}$ 就得到感知机学习的损失函数
$L(\hat{w})=\sum_{\hat{x}_{i} \in M}\left(\hat{y}_{i}-y_{i}\right) \hat{w}^{T} \hat{x}_{i}$
显然，损失函数 $L(\hat{w})$ 是非负的。如果没有误分类点，损失函数值是0。而且，误分类点越少，误分类点离超平面越近，损失函数值越小，在误分类时是参数 $\widehat{w}$ 的线性函数，在正确分类时是0。因此，给定训练数据集，损失函数 $L(\hat{w})$ 是 $\hat{w}$ 的连续可导函数。
算法：
感知机学习算法是对一下最优化问题的算法，给定训练数据集
$T=\left\{\left(\hat{x}_{1}, y_{1}\right),\left(\hat{x}_{2}, y_{2}\right), \cdots,\left(\hat{x}_{N}, y_{N}\right)\right\}$
其中 $\hat{x}_{i} \in R^{n+1}$ ，求参数 $\hat{w}$ 使其为以下损失函数极小化问题的解
$L(\hat{w})=\sum_{\hat{x}_{i} \in M}\left(\hat{y}_{i}-y_{i}\right) \hat{w}^{T} \hat{x}_{i}$
其中 $M$ 为误分类点的集合。
感知机学习算法是误分类驱动的，具体采用随机梯度下降法。首先，任意选取一个超平面 $\hat{w}_{0}^{T} \hat{x}=0$ 用梯度下降法不断地极小化损失函数 $L(\hat{w})$ ，极小化过程中不是一次是 $M$ 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。已知损失函数的梯度为
$\begin{aligned} \nabla L(\hat{w})=\frac{\partial L(\hat{w})}{\partial \hat{w}} &=\frac{\partial}{\partial \hat{w}}\left[\sum_{\hat{x}_{i} \in M}\left(\hat{y}_{i}-y_{i}\right) \hat{w}^{T} \hat{x}_{i}\right] \\ &=\sum_{\hat{x}_{i} \in M}\left[\left(\hat{y}_{i}-y_{i}\right) \frac{\partial}{\partial \hat{w}}\left(\hat{w}^{T} \hat{x}_{i}\right)\right] \\ &=\sum_{\hat{x}_{i} \in M}\left(\hat{y}_{i}-y_{i}\right) \hat{x}_{i} \end{aligned}$
那么随机选取一个误分类点 $\hat{x}_{i}$ 进行梯度下降可得参数 $\hat{w}$ 的更新公式为
$\hat{w} \leftarrow \hat{w}+\Delta \hat{w}$ $\Delta \hat{w}=-\eta \nabla L(\hat{w})$ $\widehat{w} \leftarrow \widehat{w}-\eta \nabla L(\hat{w})$ $\hat{w} \leftarrow \hat{w}-\eta\left(\hat{y}_{i}-y_{i}\right) \hat{x}_{i}=\hat{w}+\eta\left(y_{i}-\hat{y}_{i}\right) \hat{x}_{i}$ $\Delta \hat{w}=\eta\left(y_{i}-\hat{y}_{i}\right) \hat{x}_{i}$ 此式即为书中式（5.2）
其中 $\eta \in(0,1)$ 称为称为学习率。

神经网络

模型结构

单隐藏前馈网络模型结构如下图所示
在这里插入图片描述

标准BP算法

给定一个训练样本 $\left(x_{k}, y_{k}\right)$ ，假设模型输出为 $\hat{y}_{k}=\left(\hat{y}_{1}^{k}, \hat{y}_{2}^{k}, \ldots, \hat{y}_{l}^{k}\right)$ ，则均方误差为
$E_{k}=\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2}$

此式即为书中式（5.4）
如果按照梯度下降法更新模型的参数，那么各个参数的更新公式为

$w_{h j} \leftarrow w_{h j}+\Delta w_{h j}=w_{h j}-\eta \frac{\partial E_{k}}{\partial w_{h j}}$ $\theta_{j} \leftarrow \theta_{j}+\Delta \theta_{j}=\theta_{j}-\eta \frac{\partial E_{k}}{\partial \theta_{j}}$ $v_{i h} \leftarrow v_{i h}+\Delta v_{i h}=v_{i h}-\eta \frac{\partial E_{k}}{\partial v_{i h}}$ $\gamma_{h} \leftarrow \gamma_{h}+\Delta \gamma_{h}=\gamma_{h}-\eta \frac{\partial E_{k}}{\partial \gamma_{h}}$

根据 $E_{k}$ 和 $w_{h j}$ 的函数链式关系

$\begin{array}{c} E_{k}=\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2} \\ \hat{y}_{j}^{k}=f\left(\beta_{j}-\theta_{j}\right) \\ \beta_{j}=\sum_{h=1}^{q} w_{h j} b_{h} \end{array}$

其中 $f$ 为 Sigmoid 函数，所以有

$\frac{\partial E_{k}}{\partial w_{h j}}=\frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial w_{h j}}$

$\begin{aligned} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} &=\frac{\partial\left[\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2}\right]}{\partial \hat{y}_{j}^{k}} \\ &=\frac{1}{2} \times 2 \times\left(\hat{y}_{j}^{k}-y_{j}^{k}\right) \times 1 \\ &=\hat{y}_{j}^{k}-y_{j}^{k} \end{aligned}$

$\begin{aligned} \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} &=\frac{\partial\left[f\left(\beta_{j}-\theta_{j}\right)\right]}{\partial \beta_{j}} \\ &=f^{\prime}\left(\beta_{j}-\theta_{j}\right) \times 1 \end{aligned}$

由于 $f^{\prime}(x)=f(x)(1-f(x))$

$\frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} =f\left(\beta_{j}-\theta_{j}\right) \times\left[1-f\left(\beta_{j}-\theta_{j}\right)\right]$

$\begin{aligned} \frac{\partial \beta_{j}}{\partial w_{h j}} &=\frac{\partial\left(\sum_{h=1}^{q} w_{h j} b_{h}\right)}{\partial w_{h j}} \\ &=b_{h} \end{aligned}$

令 $g_{j}=-\frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}}=-\left(\hat{y}_{j}^{k}-y_{j}^{k}\right) \cdot \hat{y}_{j}^{k}\left(1-\hat{y}_{j}^{k}\right)=\hat{y}_{j}^{k}\left(1-\hat{y}_{j}^{k}\right)\left(y_{j}^{k}-\hat{y}_{j}^{k}\right)$

此式即为书中式（5.10）

$\begin{aligned} \Delta w_{h j} &=-\eta \frac{\partial E_{k}}{\partial w_{h j}} \\ &=-\eta \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial w_{h j}} \\ &=\eta g_{j} b_{h} \quad \end{aligned}$

此式即为书中式（5.11）

根据 $E_{k}$ 和 $\theta_{j}$ 的函数链式关系

$\begin{array}{c} E_{k}=\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2} \\ \hat{y}_{j}^{k}=f\left(\beta_{j}-\theta_{j}\right) \end{array}$

所以有

$\begin{aligned} \frac{\partial E_{k}}{\partial \theta_{j}} &=\frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \theta_{j}} \\ &=\left(\hat{y}_{j}^{k}-y_{j}^{k}\right) \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \theta_{j}}\\ &=\left(\hat{y}_{j}^{k}-y_{j}^{k}\right) \cdot \frac{\partial\left[f\left(\beta_{j}-\theta_{j}\right)\right]}{\partial \theta_{j}}\\ &=\left(\hat{y}_{j}^{k}-y_{j}^{k}\right) \cdot f^{\prime}\left(\beta_{j}-\theta_{j}\right) \times-1\\ &=\left(y_{j}^{k}-\hat{y}_{j}^{k}\right) \cdot f^{\prime}\left(\beta_{j}-\theta_{j}\right) \end{aligned}$

$\begin{aligned} \Delta \theta_{j} &=-\eta\frac{\partial E_{k}}{\partial \theta_{j}} \\ &=-\eta\left(y_{j}^{k}-\hat{y}_{j}^{k}\right) \hat{y}_{j}^{k}\left(1-\hat{y}_{j}^{k}\right)\\ &=-\eta g_{j} \end{aligned}$

此式即为书中式（5.12）

根据 $E_{k}$ 和 $v_{i h}$ 的函数链式关系

$\begin{array}{c} E_{k}=\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2} \\ {\hat{y}_{j}^{k}}=f\left(\beta_{j}-\theta_{j}\right) \\ \qquad \begin{array}{c} \beta_{j}=\sum_{h=1}^{q} w_{h j} b_{h} \\ b_{h}=f\left(\alpha_{h}-\gamma_{h}\right) \\ \alpha_{h}=\sum_{i=1}^{d} v_{i h} x_{i} \end{array} \end{array}$

其中 $f$ 为 Sigmoid 函数，所以有

$\frac{\partial E_{k}}{\partial v_{i h}}=\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial \alpha_{h}} \cdot \frac{\partial \alpha_{h}}{\partial v_{i h}}$

$\begin{aligned} \frac{\partial \beta_{j}}{\partial b_{h}} &=\frac{\partial\left(\sum_{h=i}^{q} w_{h j} b_{h}\right)}{\partial b_{h}} \\ &=w_{h j} \end{aligned}$

$\begin{aligned} \frac{\partial b_{h}}{\partial \alpha_{h}} &=\frac{\partial\left[f\left(\alpha_{h}-\gamma_{h}\right)\right]}{\partial \alpha_{h}} \\ &=f^{\prime}\left(\alpha_{h}-\gamma_{h}\right) \times 1 \\ &=f\left(\alpha_{h}-\gamma_{h}\right) \times\left[1-f\left(\alpha_{h}-\gamma_{h}\right)\right] \\ &=b_{h}\left(1-b_{h}\right) \end{aligned}$

$\begin{aligned} \frac{\partial \alpha_{h}}{\partial v_{i h}} &=\frac{\partial\left(\sum_{i=1}^{d} v_{i h} x_{i}\right)}{\partial v_{i h}} \\ &=x_{i} \end{aligned}$
令 $e_{h}=-\frac{\partial E_{k}}{\partial \alpha_{h}}=-\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial \alpha_{h}}=b_{h}\left(1-b_{h}\right) \sum_{j=1}^{l} w_{h j} g_{j}$

此式即为书中式（5.15）

$\begin{aligned} \Delta v_{i h} &=-\eta \frac{\partial E_{k}}{\partial v_{i h}} \\ &=-\eta \sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial \alpha_{h}} \cdot \frac{\partial \alpha_{h}}{\partial v_{i h}} \\ &=\eta e_{h} x_{i} \quad \end{aligned}$

此式即为书中式（5.13）

根据 $E_{k}$ 和 $\gamma_{\boldsymbol{h}}$ 的函数链式关系

$\begin{array}{c} E_{k}=\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2} \\ \hat{y}_{j}^{k}=f\left(\beta_{j}-\theta_{j}\right) \\ \qquad \begin{array}{c} \beta_{j}=\sum_{h=1}^{q} w_{h j} b_{h} \\ b_{h}=f\left(\alpha_{h}-\gamma_{h}\right) \end{array} \end{array}$
其中 $f$ 为 Sigmoid 函数，所以有

$\begin{aligned} \frac{\partial E_{k}}{\partial \gamma_{h}} &=\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial \gamma_{h}} \\ &=\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot \frac{\partial\left[f\left(\alpha_{h}-\gamma_{h}\right)\right]}{\partial \gamma_{h}} \\ &=\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot f^{\prime}\left(\alpha_{h}-\gamma_{h}\right) \cdot(-1) \\ &=\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot f\left(\alpha_{h}-\gamma_{h}\right) \times\left[1-f\left(\alpha_{h}-\gamma_{h}\right)\right] \cdot(-1) \\ &=\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} \cdot b_{h}\left(1-b_{h}\right) \cdot(-1)\\ &=\sum_{j=1}^{l} g_{j} \cdot w_{h j} \cdot b_{h}\left(1-b_{h}\right)\\ &=e_{h} \end{aligned}$
所以有
$\begin{aligned} \Delta \gamma_{h} &=-\eta \frac{\partial E_{k}}{\partial \gamma_{h}} \\ &=-\eta e_{h} \end{aligned}$