基本神经网络

符号 含义

  • x,,xRn.
  • y/,y.autoencodery=x.
  • (x(i),y(i)),i
  • hW,b(x),xW,b.y.
  • W(l)ij,ljl+1i.
  • b(l)i,l+1i.ll+1i.
  • θ,W,b.
  • a(l)i,li.L1a(1)i=xi
  • f(),f(z)=tanh(z).
  • z(l)i,li.a(l)i=f(z(l)i).
  • α,
  • sl,l.
  • nl,.L1Lnl.
  • λ,.
  • x^,autoencoderx.hW,b(x).
  • ρ,
  • ρ^i,sparseautoencoderi.
  • β,sparseautoencoder.

这里写图片描述

a(2)1a(2)2a(2)3hW,b(x)=f(W(1)11x1+W(1)12x2+W(1)13x3+b(1)1)=f(W(1)21x1+W(1)22x2+W(1)23x3+b(1)2)=f(W(1)31x1+W(1)32x2+W(1)33x3+b(1)3)=a(3)1=f(W(2)11a(2)1+W(2)12a(2)2+W(2)13a(2)3+b(2)1)

简洁地表示:
z(2)a(2)z(3)hW,b(x)=W(1)x+b(1)=f(z(2))=W(2)a(2)+b(2)=a(3)=f(z(3))

损失函数:

J(W,b)=[1mi=1mJ(W,b;x(i),y(i))]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2=[1mi=1m(12hW,b(x(i))y(i)2)]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2

第一项是一个均方差项。第二项是一个规则化项(也叫 权重衰减项),其目的是减小权重的幅度, 防止过度拟合
[注:通常权重衰减的计算并不使用偏置项 b(l)iJ(W,b) 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。]

我们需要将每一个参数 W(l)ijb(l)i 初始化为一个很小的、接近零的随机值(比如说,使用正态分布 Normal(0,ϵ2)ϵ0.01 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 J(W,b) 是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为 0。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有 iW(1)ijxa(2)1=a(2)2=a(2)3= 。随机初始化的目的是使对称失效

后向传播求偏导:

W(l)ijJ(W,b)b(l)iJ(W,b)=1mi=1mW(l)ijJ(W,b;x(i),y(i))+λW(l)ij=1mi=1mb(l)iJ(W,b;x(i),y(i))

用反向传播算法计算偏导数,思路如下:给定一个样例 (x,y) ,我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括 hW,b(x) 的输出值。之后,针对第 l 层的每一个节点 i,我们计算出其“残差” δ(l)i ,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为 δ(nl)inl )。对于隐藏单元我们如何处理呢?我们将基于节点(第 l+1 层节点)残差的加权平均值计算 δ(l)i ,这些节点以 a(l)i 作为输入。下面将给出反向传导算法的细节:

  1. 进行前馈传导计算,利用前向传导公式,得到 L2,L3, 直到输出层 Lnl 的激活值。
  2. 对于第 nli ,我们根据以下公式计算残差:

    δ(nl)i=znliJ(W,b;x,y)=znli12yhW,b(x)2=znli12j=1Snl(yja(nl)j)2=znli12j=1Snl(yjf(z(nl)j))2=(yif(z(nl)i))f(z(nl)i)=(yia(nl)i)f(z(nl)i)

  3. l=nl1,nl2,nl3,,2li 个节点的残差计算方法如下:
    δ(l)i=(sl+1j=1W(l)jiδ(l+1)j)f(z(l)i)
    注:

    δ(nl1)i=znl1iJ(W,b;x,y)=znl1i12yhW,b(x)2=znl1i12j=1Snl(yja(nl)j)2=12j=1Snlznl1i(yja(nl)j)2=12j=1Snlznl1i(yjf(z(nl)j))2=j=1Snl(yjf(z(nl)j))z(nl1)if(z(nl)j)=j=1Snl(yjf(z(nl)j))f(z(nl)j)z(nl)jz(nl1)i=j=1Snlδ(nl)jz(nl)jznl1i=j=1Snlδ(nl)jznl1ik=1Snl1f(znl1k)Wnl1jk=j=1Snlδ(nl)jWnl1jif(znl1i)=j=1SnlWnl1jiδ(nl)jf(znl1i)

    以上逐次从后向前求导的过程即为“反向传导”的本意所在.

  4. 计算我们需要的偏导数,计算方法如下:

W(l)ijJ(W,b;x,y)b(l)iJ(W,b;x,y)=a(l)jδ(l+1)i=δ(l+1)i.

PS:如果选择 f(z)=1/(1+exp(z)) ,也就是sigmoid函数,那么它的导数就是 f(z)=f(z)(1f(z))tanhf(z)=1(f(z))2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值