【深度学习基础】简单易懂理解BP算法


本文属于我的机器学习/深度学习系列文章,点此查看系列文章目录

前言

提起BP算法(Back Propagation),相信学过深度学习的人都不陌生,在深层的网络中对权重参数的更新免不了要使用这个算法,所以BP算法也是入门深度学习的一个必须理解的算法。

写这篇文章的缘由是我自己对BP算法在此之前也是属于半懂(知道工作原理,不明白处理细节)的状态,看了网上许多文章,觉得讲的都不够简单,让刚入门的小白难以接受,产生劝退效果。因此,打算通过写一篇简单理解BP算法的文章,一方面提升自己对BP的理解,另一方面希望看到这篇文章的小伙伴能够掌握BP算法的原理,为以后的学习铺路。
在这里插入图片描述

1. 单层网络参数优化

BP算法是针对深层次网络进行参数更新的算法,因此需要先理解单层网络下,权重是如何被更新的。

1.1 模型定义

为了理解简便,我们采用最简单的线性分类模型
y = f ( x ) = w T x + b (1) \mathbf y = f(\mathbf x) = \mathbf w^T\mathbf x+b \tag{1} y=f(x)=wTx+b(1)
从公式容易看出,输入是一个向量 x \mathbf x x w T \mathbf w^T wT是参数矩阵, b b b是偏置(对这些不了解的可以先看我这篇机器学习:线性分类问题(基础知识))。转换成网络图如下:
在这里插入图片描述

可以看出经过网络后,一个三维的输入向量转换成了一个二维的输出向量

例如得到输出向量为 y = [ 0.7 , 0.3 ] \mathbf y = [0.7,0.3] y=[0.7,0.3]而真实的数据是 y ^ = [ 1 , 0 ] \hat{\mathbf y} = [1,0] y^=[1,0],那么说明模型的参数还不符合预期,存在误差,这时候就要定义损失函数将误差计算出来。

1.2 损失函数

损失函数是用于衡量预测输出和真实输出之间差距的,通常我们采用均方误差(有时候也用熵):
l o s s ( y , y ^ ) = 1 2 ∑ i = 1 N ∣ ∣ y − y ^ ∣ ∣ 2 (2) loss(\mathbf y,\hat{\mathbf y}) = \frac{1}{2}\sum_{i=1}^N||\mathbf y-\hat{\mathbf y}||^2 \tag{2} loss(y,y^)=21i=1Nyy^2(2)

这里 N N N是输入的样本数量,每个样本输入都会得到一组 y , y ^ \mathbf y,\hat{\mathbf y} y,y^

有了损失相当于告诉我们模型还不够完善,要对模型优化(就是对权重更新),如何更新的步骤就是参数优化算法要干的事了

1.3 参数优化

相信大家也很熟悉参数优化采用的方式是梯度下降算法(更一般地是随机梯度下降),梯度下降的含义在于我们知道了误差,现在想要将误差减小,注意这里的参数是 w , b \mathbf w,b w,b,你可以简单理解为 x , y x,y x,y一元函数优化的过程,下图展示了梯度下降:
在这里插入图片描述
如图,我们需要从实际的loss降到期望的最小loss,很显然,最快的方法就是验证导数最大的反方向下降,但是我们下降了一会,到了一个新的loss点的时候,原理的导数最大方向不是当前的导数最大方向了。因此,在梯度下降算法中常常有一个超参数叫做学习率( α \alpha α),它控制了梯度下降的步长,告诉我们走一段之后重新计算梯度,再往下走。当基本稳定在某个点的时候就不需要再继续下降了。

上面是梯度下降的过程,让我们理解参数是如何被优化的,但同时也可引出三个常见问题的答案

  • 梯度下降得到的最小loss是极值点,不是最值点
  • 学习率不能太小,会使得收敛速度过慢,训练时间过长
  • 学习率不能太大,会达不到区域最优,在附近震荡
    在这里插入图片描述

到此一轮参数更新已经完成,实际训练中,往往要进行多个周期的更新达到更好的效果,即重复上面的步骤即可。

2. 多层网络的参数优化

上面的方法仅适用于单层(只有输入输出层)的参数优化,当遇到多层网络时,最后一层的参数依然可根据输出的损失,但如何将最后一层的损失传递到前一层,再更新前一层的参数就需要BP算法出马了。

2.1 多层网络模型设计

同样为了简便理解,我们采用一个稍微简单一些的多层网络描述BP算法,网络结构如下:
在这里插入图片描述

需要解释的地方是 f ( a 1 ) = o 1 f(a_1) = o_1 f(a1)=o1是, a 1 a_1 a1是前面 x \mathbf x x w , b \mathbf w,b w,b计算得到结果, f f f表示激活函数,用于添加非线性操作,使得网络能够处理非线性问题。 o 1 o_1 o1是该神经元的输出,也是下一层的输入

因此我们可以得到第 l l l层和 l − 1 l-1 l1层的关系公式如下所示:
a l = w l o l − 1 + b o l = f ( a l ) (3) \mathbf a_l = \mathbf w_l \mathbf o_{l-1}+b\\ \mathbf o_l = f(\mathbf a_l) \tag{3} al=wlo

  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 深度学习基础教程 PDF 是一本介绍深度学习基础知识和应用的教程资料。该教程以简明易懂的方式系统地介绍了深度学习的原理、算法和常用工具,是学习深度学习的入门指南。 这本教程首先从深度学习的基本概念开始讲解,包括神经网络结构、激活函数、前向传播和反向传播算法等。然后,教程详细介绍了深度学习中常用的模型,如卷积神经网络、循环神经网络和生成对抗网络,并对它们的结构和应用进行了深入解析。 在教程中,还介绍了一些深度学习的常用工具和框架,如TensorFlow和PyTorch。这些工具和框架提供了丰富的函数库和示例代码,方便读者理解和实践深度学习的内容。 教程的每一章都包含了理论知识的详细解释和丰富的实例代码,读者可以通过阅读教程和运行代码来加深对深度学习的理解。此外,教程还提供了一些练习题和实战项目,读者可以通过完成这些任务来检验和巩固所学的知识。 总的来说,深度学习基础教程PDF 提供了一个全面且易于理解的深度学习学习资源。无论是初学者还是已经有一定基础的人,通过阅读这本教程,都能够系统地学习和掌握深度学习的基本概念、原理和应用。 ### 回答2: 深度学习基础教程是一本关于深度学习的入门教材。这本教程为读者提供了深度学习的基本概念、算法和应用案例等方面的知识。教程的作者将复杂的理论和算法内容以简洁明了的方式进行了阐述,并提供了大量的示例代码和实战项目,有助于读者更好地理解和掌握深度学习的基础知识。 这本教程的主要内容包括神经网络的基本原理、反向传播算法、卷积神经网络、循环神经网络、深度学习常用框架等。通过学习这些内容,读者可以了解深度学习的基本概念和算法,并能够使用常见的深度学习框架进行实际的应用开发。 该教程的特点之一是提供了大量的示例代码和实战项目。通过参考这些实例代码,读者可以学习如何使用Python等编程语言实现深度学习模型,并对深度学习算法的具体应用有更深入的理解。此外,实战项目的设计也能帮助读者将学到的知识应用到实际问题中,提高解决实际问题的能力。 总之,深度学习基础教程是一本实用性很强的深度学习教材,适合对深度学习感兴趣的初学者阅读。通过学习这本教程,读者可以系统地掌握深度学习的基本原理和算法,并且能够使用常见的深度学习框架进行实际开发。 ### 回答3: 深度学习基础教程 PDF 是一本关于深度学习入门的电子书籍。深度学习是一种机器学习方法,通过建立多层神经网络来模拟人类大脑的工作原理,并用于解决各种复杂的问题。 这本教程以简明易懂的方式介绍了深度学习的基本原理和常用的技术。它涵盖了深度学习的基础知识,包括神经网络的构建、激活函数的选择、损失函数的定义等。同时,该教程还介绍了一些经典的深度学习模型,如卷积神经网络(CNN)和循环神经网络(RNN),以及它们在图像识别、自然语言处理等领域的应用。 通过学习这本教程,读者可以了解深度学习的基本概念和原理,并学会使用常见的深度学习工具和框架,如TensorFlow和PyTorch。此外,这本教程还提供了大量的实例和练习,帮助读者巩固所学知识,并通过实践掌握深度学习的应用技巧。 总而言之,深度学习基础教程 PDF 是一本详尽的入门资料,适合初学者快速了解和入门深度学习。无论是对于学术界的研究者,还是对于工业界的从业者,这本教程都提供了很好的学习资源,有助于开展相关的研究和应用工作。希望有兴趣的读者能够通过学习这本教程,掌握深度学习的基本原理和实践技巧。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值