关闭

基本神经网络

187人阅读 评论(0) 收藏 举报
分类:

符号 含义

  • x,,xRn.
  • y/,y.autoencodery=x.
  • (x(i),y(i)),i
  • hW,b(x),xW,b.y.
  • W(l)ij,ljl+1i.
  • b(l)i,l+1i.ll+1i.
  • θ,W,b.
  • a(l)i,li.L1a(1)i=xi
  • f(),f(z)=tanh(z).
  • z(l)i,li.a(l)i=f(z(l)i).
  • α,
  • sl,l.
  • nl,.L1Lnl.
  • λ,.
  • x^,autoencoderx.hW,b(x).
  • ρ,
  • ρ^i,sparseautoencoderi.
  • β,sparseautoencoder.

这里写图片描述

a(2)1a(2)2a(2)3hW,b(x)=f(W(1)11x1+W(1)12x2+W(1)13x3+b(1)1)=f(W(1)21x1+W(1)22x2+W(1)23x3+b(1)2)=f(W(1)31x1+W(1)32x2+W(1)33x3+b(1)3)=a(3)1=f(W(2)11a(2)1+W(2)12a(2)2+W(2)13a(2)3+b(2)1)

简洁地表示:
z(2)a(2)z(3)hW,b(x)=W(1)x+b(1)=f(z(2))=W(2)a(2)+b(2)=a(3)=f(z(3))

损失函数:

J(W,b)=[1mi=1mJ(W,b;x(i),y(i))]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2=[1mi=1m(12hW,b(x(i))y(i)2)]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2

第一项是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合
[注:通常权重衰减的计算并不使用偏置项 b(l)iJ(W,b) 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。]

我们需要将每一个参数W(l)ijb(l)i 初始化为一个很小的、接近零的随机值(比如说,使用正态分布Normal(0,ϵ2)ϵ0.01 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 J(W,b)是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为 0。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有iW(1)ijxa(2)1=a(2)2=a(2)3=。随机初始化的目的是使对称失效

后向传播求偏导:

W(l)ijJ(W,b)b(l)iJ(W,b)=1mi=1mW(l)ijJ(W,b;x(i),y(i))+λW(l)ij=1mi=1mb(l)iJ(W,b;x(i),y(i))

用反向传播算法计算偏导数,思路如下:给定一个样例(x,y),我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括 hW,b(x) 的输出值。之后,针对第 l 层的每一个节点 i,我们计算出其“残差” δ(l)i,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为δ(nl)inl)。对于隐藏单元我们如何处理呢?我们将基于节点(第 l+1 层节点)残差的加权平均值计算 δ(l)i,这些节点以a(l)i作为输入。下面将给出反向传导算法的细节:

  1. 进行前馈传导计算,利用前向传导公式,得到 L2,L3, 直到输出层 Lnl 的激活值。
  2. 对于第 nli,我们根据以下公式计算残差:

    δ(nl)i=znliJ(W,b;x,y)=znli12yhW,b(x)2=znli12j=1Snl(yja(nl)j)2=znli12j=1Snl(yjf(z(nl)j))2=(yif(z(nl)i))f(z(nl)i)=(yia(nl)i)f(z(nl)i)

  3. l=nl1,nl2,nl3,,2li个节点的残差计算方法如下:
    δ(l)i=(sl+1j=1W(l)jiδ(l+1)j)f(z(l)i)
    注:

    δ(nl1)i=znl1iJ(W,b;x,y)=znl1i12yhW,b(x)2=znl1i12j=1Snl(yja(nl)j)2=12j=1Snlznl1i(yja(nl)j)2=12j=1Snlznl1i(yjf(z(nl)j))2=j=1Snl(yjf(z(nl)j))z(nl1)if(z(nl)j)=j=1Snl(yjf(z(nl)j))f(z(nl)j)z(nl)jz(nl1)i=j=1Snlδ(nl)jz(nl)jznl1i=j=1Snlδ(nl)jznl1ik=1Snl1f(znl1k)Wnl1jk=j=1Snlδ(nl)jWnl1jif(znl1i)=j=1SnlWnl1jiδ(nl)jf(znl1i)

    以上逐次从后向前求导的过程即为“反向传导”的本意所在.

  4. 计算我们需要的偏导数,计算方法如下:

W(l)ijJ(W,b;x,y)b(l)iJ(W,b;x,y)=a(l)jδ(l+1)i=δ(l+1)i.

PS:如果选择 f(z)=1/(1+exp(z)) ,也就是sigmoid函数,那么它的导数就是 f(z)=f(z)(1f(z))tanhf(z)=1(f(z))2

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:88512次
    • 积分:1264
    • 等级:
    • 排名:千里之外
    • 原创:35篇
    • 转载:4篇
    • 译文:6篇
    • 评论:19条
    文章分类
    最新评论