【深度学习基础】简单易懂理解BP算法

最新推荐文章于 2023-09-28 20:32:41 发布

VIP文章 GentleCP

最新推荐文章于 2023-09-28 20:32:41 发布

阅读量1.9k

点赞数 6

分类专栏：机器学习(深度学习) 文章标签： BP算法深度学习 bp 机器学习简易理解

本文链接：https://blog.csdn.net/GentleCP/article/details/104984351

版权

文章目录

前言
1. 单层网络参数优化
2. 多层网络的参数优化
- 2.1 多层网络模型设计
- 2.2 BP算法
3. 总结
4. 参考资料

本文属于我的机器学习/深度学习系列文章，点此查看系列文章目录

前言

提起BP算法(Back Propagation)，相信学过深度学习的人都不陌生，在深层的网络中对权重参数的更新免不了要使用这个算法，所以BP算法也是入门深度学习的一个必须理解的算法。

写这篇文章的缘由是我自己对BP算法在此之前也是属于半懂（知道工作原理，不明白处理细节）的状态，看了网上许多文章，觉得讲的都不够简单，让刚入门的小白难以接受，产生劝退效果。因此，打算通过写一篇简单理解BP算法的文章，一方面提升自己对BP的理解，另一方面希望看到这篇文章的小伙伴能够掌握BP算法的原理，为以后的学习铺路。
在这里插入图片描述

1. 单层网络参数优化

BP算法是针对深层次网络进行参数更新的算法，因此需要先理解单层网络下，权重是如何被更新的。

1.1 模型定义

为了理解简便，我们采用最简单的线性分类模型
$\mathbf y = f(\mathbf x) = \mathbf w^T\mathbf x+b \tag{1}$
从公式容易看出，输入是一个向量 $\mathbf x$ ， $\mathbf w^T$ 是参数矩阵， $b$ 是偏置（对这些不了解的可以先看我这篇机器学习：线性分类问题（基础知识））。转换成网络图如下：
在这里插入图片描述

可以看出经过网络后，一个三维的输入向量转换成了一个二维的输出向量

例如得到输出向量为 $\mathbf y = [0.7,0.3]$ 而真实的数据是 $\hat{\mathbf y} = [1,0]$ ，那么说明模型的参数还不符合预期，存在误差，这时候就要定义损失函数将误差计算出来。

1.2 损失函数

损失函数是用于衡量预测输出和真实输出之间差距的，通常我们采用均方误差（有时候也用熵）：
$loss(\mathbf y,\hat{\mathbf y}) = \frac{1}{2}\sum_{i=1}^N||\mathbf y-\hat{\mathbf y}||^2 \tag{2}$

这里 $N$ 是输入的样本数量，每个样本输入都会得到一组 $\mathbf y,\hat{\mathbf y}$

有了损失相当于告诉我们模型还不够完善，要对模型优化（就是对权重更新），如何更新的步骤就是参数优化算法要干的事了

1.3 参数优化

相信大家也很熟悉参数优化采用的方式是梯度下降算法（更一般地是随机梯度下降），梯度下降的含义在于我们知道了误差，现在想要将误差减小，注意这里的参数是 $\mathbf w,b$ ，你可以简单理解为 $x, y$ 一元函数优化的过程，下图展示了梯度下降：
在这里插入图片描述
如图，我们需要从实际的loss降到期望的最小loss，很显然，最快的方法就是验证导数最大的反方向下降，但是我们下降了一会，到了一个新的loss点的时候，原理的导数最大方向不是当前的导数最大方向了。因此，在梯度下降算法中常常有一个超参数叫做学习率( $\alpha$ ),它控制了梯度下降的步长，告诉我们走一段之后重新计算梯度，再往下走。当基本稳定在某个点的时候就不需要再继续下降了。