深度学习笔记(二)---反向传播算法

反向传播算法是训练神经网络的常用方法,通过前向传播计算输出误差,然后从输出层开始逐层反向调整权重以减小误差。算法涉及批量梯度下降法,通过对整体代价函数求导来更新权重,防止过拟合。反向传播通过计算残差,从输出层到输入层计算偏导数,实现权重的更新。
摘要由CSDN通过智能技术生成

反向传播算法

一、简介

反向传播算法(Backpropagation)是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法。

·其主要思想是:

  1. 将训练集数据输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果,这是ANN的前向传播过程;

  2. 由于ANN的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;

  3. 在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。

二、过程

假设我们有一个固定样本集 ,它包含 m 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲,对于单个样例 (x,y),其代价函数为:

这是一个(二分之一的)方差代价函数。给定一个包含 m 个样例的数据集,我们可以定义整体代价函数为:

以上公式中的第一项 J(W,b) 是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合。

[注:通常权重衰减的计算并不使用偏置项 ,比如我们在 J(W, b) 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229(机器学习)课程,或者在YouTube上看过课程视频,你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中,我们将高斯先验概率引入到参数中计算MAP(极大后验)估计(而不是极大似然估计)。]

权重衰减参数 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义:

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值