符号 含义
- x,训练样本的输入特征,x∈Rn.
- y输出值/目标值,这里y可以是向量.在autoencoder中,y=x.
- (x(i),y(i)),第i个训练样本
- hW,b(x),输入为x时的假设输出,其中包含参数W,b.该输出应当与目标值y具有相同的维数.
- W(l)ij,连接第l层j单元和第l+1层i单元的参数.
- b(l)i,第l+1层i单元的偏置项.也可以看作是连接第l层偏置单元和第l+1层i单元的参数.
- θ参数向量,可以认为该向量是通过将参数W,b组合展开为一个长的列向量而得到.
- a(l)i,网络中第l层i单元的激活(输出)值.另外,由于L1层是输入层,所以a(1)i=xi
- f(⋅)激活函数,我们用f(z)=tanh(z).
- z(l)i,第l层i单元所有输入的加权和.因此有a(l)i=f(z(l)i).
- α,学习率
- sl,第l层的单元数目(不包含偏置单元).
- nl,网络中的层数.通常L1层是输入层,Lnl层是输出层.
- λ,权重衰减系数.
- x^,对于一个autoencoder,该符号表示其输出值;亦即输入值x的重构值.与hW,b(x)含义相同.
- ρ,稀疏值,可以用它指定我们所需的稀疏程度
- ρ^i,(sparseautoencoder中)隐藏单元i的平均激活值.
- β,(sparseautoencoder目标函数中)稀疏值惩罚项的权重.
简洁地表示:
损失函数:
第一项是一个均方差项。第二项是一个规则化项(也叫 权重衰减项),其目的是减小权重的幅度, 防止过度拟合。
[注:通常权重衰减的计算并不使用偏置项 b(l)i,比如我们在J(W,b) 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。]
我们需要将每一个参数 W(l)ij和b(l)i 初始化为一个很小的、接近零的随机值(比如说,使用正态分布 Normal(0,ϵ2)生成的随机值,其中ϵ设置为0.01 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 J(W,b) 是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为 0。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有 i,W(1)ij都会取相同的值,那么对于任何输入x都会有:a(2)1=a(2)2=a(2)3=…) 。随机初始化的目的是使对称失效。
后向传播求偏导:
用反向传播算法计算偏导数,思路如下:给定一个样例 (x,y) ,我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括 hW,b(x) 的输出值。之后,针对第 l 层的每一个节点 i,我们计算出其“残差” δ(l)i ,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为 δ(nl)i(第nl层表示输出层 )。对于隐藏单元我们如何处理呢?我们将基于节点(第 l+1 层节点)残差的加权平均值计算 δ(l)i ,这些节点以 a(l)i 作为输入。下面将给出反向传导算法的细节:
- 进行前馈传导计算,利用前向传导公式,得到 L2,L3,… 直到输出层 Lnl 的激活值。
对于第 nl层(输出层)的每个输出单元i ,我们根据以下公式计算残差:
δ(nl)i=∂∂znliJ(W,b;x,y)=∂∂znli12∥∥y−hW,b(x)∥∥2=∂∂znli12∑j=1Snl(yj−a(nl)j)2=∂∂znli12∑j=1Snl(yj−f(z(nl)j))2=−(yi−f(z(nl)i))⋅f′(z(nl)i)=−(yi−a(nl)i)⋅f′(z(nl)i)对 l=nl−1,nl−2,nl−3,…,2的各个层,第l层的第i 个节点的残差计算方法如下:
δ(l)i=(∑sl+1j=1W(l)jiδ(l+1)j)f′(z(l)i)
注:
δ(nl−1)i=∂∂znl−1iJ(W,b;x,y)=∂∂znl−1i12∥∥y−hW,b(x)∥∥2=∂∂znl−1i12∑j=1Snl(yj−a(nl)j)2=12∑j=1Snl∂∂znl−1i(yj−a(nl)j)2=12∑j=1Snl∂∂znl−1i(yj−f(z(nl)j))2=∑j=1Snl−(yj−f(z(nl)j))⋅∂∂z(nl−1)if(z(nl)j)=∑j=1Snl−(yj−f(z(nl)j))⋅f′(z(nl)j)⋅∂z(nl)j∂z(nl−1)i=∑j=1Snlδ(nl)j⋅∂z(nl)j∂znl−1i=∑j=1Snl⎛⎝δ(nl)j⋅∂∂znl−1i∑k=1Snl−1f(znl−1k)⋅Wnl−1jk⎞⎠=∑j=1Snlδ(nl)j⋅Wnl−1ji⋅f′(znl−1i)=⎛⎝∑j=1SnlWnl−1jiδ(nl)j⎞⎠f′(znl−1i)
以上逐次从后向前求导的过程即为“反向传导”的本意所在.- 计算我们需要的偏导数,计算方法如下:
PS:如果选择 f(z)=1/(1+exp(−z)) ,也就是sigmoid函数,那么它的导数就是 f′(z)=f(z)(1−f(z))(如果选择tanh函数,那它的导数就是f′(z)=1−(f(z))2