目录:
- 基本原理
- BP算法算法
- cost function
- 求参数
- BP算法推导
- 参考资料
前面简单的认识了一下神经网络,这里我要与大家分享的是神经网络中的大明星:BP算法。下面的内容主要是来自斯坦福大学的教程,这篇教程是我看过的所有BP相关教程中最好的,其中补充了一些内容。
BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用梯度下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hidden layer)和输出层(output layer)。
基本原理
BP算法基本原理是利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计。看下面几个动图:
如上面动图展示,误差就这样通过一层一层的传播,最后根据误差使用梯度下降法更新每个节点的参数。
BP算法 1
Cost Function
一个固定样本集
{(x(1),y(1)),…,(x(m),y(m))}
,它包含
m
个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲,对于单个样例
(x,y)
,其代价函数为:
这是一个(二分之一的)方差代价函数。给定一个包含 m 个样例的数据集,我们可以定义整体代价函数为:
以上公式中的第一项 J(W,b) 是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合。
[注:通常权重衰减的计算并不使用偏置项 b(l)i ,比如我们在 J(W,b) 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229(机器学习)课程,或者在YouTube上看过课程视频,你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中,我们将高斯先验概率引入到参数中计算MAP(极大后验)估计(而不是极大似然估计)。]
权重衰减参数 λ 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义: J(W,b;x,y) 是针对单个样例计算得到的方差代价函数; J(W,b) 是整体样本代价函数,它包含权重衰减项。
以上的代价函数经常被用于分类和回归问题。在分类问题中,我们用 y=0 或 1 ,来代表两种类型的标签(回想一下,这是因为 sigmoid激活函数的值域为 [0,1] ;如果我们使用双曲正切型激活函数,那么应该选用 −1 和 +1 作为标签)。对于回归问题,我们首先要变换输出值域(译者注:也就是 y ),以保证其范围为 [0,1] (同样地,如果我们使用双曲正切型激活函数,要使输出值域为 [−1,1] )。
求参
我们的目标是针对参数 W 和 b 来求其函数 J(W,b) 的最小值。为了求解神经网络,我们需要将每一个参数 W(l)ij 和 b(l)i 初始化为一个很小的、接近零的随机值(比如说,使用正态分布 Normal(0,ϵ2) 生成的随机值,其中 ϵ 设置为 0.01 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 J(W,b) 是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为 0 。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有 i,W(1)ij 都会取相同的值,那么对于任何输入 x 都会有: a(2)1=a(2)2=a(2)3=… )。随机初始化的目的是使对称失效。
梯度下降法中每一次迭代都按照如下公式对参数 W 和 b 进行更新:
其中 α 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法,它是计算偏导数的一种有效方法。
我们首先来讲一下如何使用反向传播算法来计算 ∂∂W(l)ijJ(W,b;x,y)和∂∂b(l)iJ(W,b;x,y), 这两项是单个样例 (x,y) 的代价函数 J(W,b;x,y) 的偏导数。一旦我们求出该偏导数,就可以推导出整体代价函数 J(W,b) 的偏导数:
以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于 W 而不是 b 。
BP算法推导
反向传播算法的思路如下:给定一个样例 (x,y) ,我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括 hW,b(x) 的输出值。之后,针对第 l 层的每一个节点 i ,我们计算出其“残差” δ(l)i ,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为 δ(nl)i (第 nl 层表示输出层)。对于隐藏单元我们如何处理呢?我们将基于节点(译者注:第 l+1 层节点)残差的加权平均值计算 δ(l)i ,这些节点以 a(l)i 作为输入。下面将给出反向传导算法的细节:
- 进行前馈传导计算,利用前向传导公式,得到 L2,L3,… 直到输出层 Lnl 的激活值。
- 对于第 nl 层(输出层)的每个输出单元 i ,我们根据以下公式计算残差:
[
]
3.对 l=nl−1,nl−2,nl−3,… , 2 的各个层,第 l 层的第 i 个节点的残差计算方法如下:
δ(l)i=(∑sl+1j=1W(l)jiδ(l+1)j)f′(z(l)i)
{
}
将上式中的 nl−1 与 nl 的关系替换为 l 与 l+1 的关系,就可以得到:
以上逐次从后向前求导的过程即为“反向传导”的本意所在。 ]
4.计算我们需要的偏导数,计算方法如下:
[
]
最后,我们用矩阵-向量表示法重写以上算法。我们使用“ ∙ ” 表示向量乘积运算符(在Matlab或Octave里用“.*”表示,也称作阿达马乘积)。若 a=b∙c ,则 ai=bici 。在上一个教程中我们扩展了 f(⋅) 的定义,使其包含向量运算,这里我们也对偏导数 f′(⋅) 也做了同样的处理(于是又有 f′([z1,z2,z3])=[f′(z1),f′(z2),f′(z3)] )。
那么,反向传播算法可表示为以下几个步骤:
- 进行前馈传导计算,利用前向传导公式,得到 L2,L3,… 直到输出层 Lnl 的激活值。
- 对输出层(第
nl
层),计算:
δ(nl)=−(y−a(nl))∙f′(z(nl)) - 对于
l=nl−1,nl−2,nl−3,…,2
的各层,计算:
δ(l)=((W(l))Tδ(l+1))∙f′(z(l)) - 计算最终需要的偏导数值:
∇W(l)J(W,b;x,y)∇b(l)J(W,b;x,y)=δ(l+1)(a(l))T,=δ(l+1).
实现中应注意:在以上的第2步和第3步中,我们需要为每一个 i 值计算其 f′(z(l)i) 。假设 f(z) 是sigmoid函数,并且我们已经在前向传导运算中得到了 a(l)i 。那么,使用我们早先推导出的 f′(z) 表达式,就可以计算得到 f′(z(l)i)=a(l)i(1−a(l)i) 。
最后,我们将对梯度下降算法做个全面总结。在下面的伪代码中,
ΔW(l)
是一个与矩阵
W(l)
维度相同的矩阵,
Δb(l)
是一个与
b(l)
维度相同的向量。注意这里“
ΔW(l)
”是一个矩阵,而不是“
Δ
与
W(l)
相乘”。下面,我们实现批量梯度下降法中的一次迭代:
现在,我们可以重复梯度下降法的迭代步骤来减小代价函数
J(W,b)
的值,进而求解我们的神经网络。