基本神经网络

原创 2017年01月03日 09:59:03

符号 含义

  • x,,xRn.
  • y/,y.autoencodery=x.
  • (x(i),y(i)),i
  • hW,b(x),xW,b.y.
  • W(l)ij,ljl+1i.
  • b(l)i,l+1i.ll+1i.
  • θ,W,b.
  • a(l)i,li.L1a(1)i=xi
  • f(),f(z)=tanh(z).
  • z(l)i,li.a(l)i=f(z(l)i).
  • α,
  • sl,l.
  • nl,.L1Lnl.
  • λ,.
  • x^,autoencoderx.hW,b(x).
  • ρ,
  • ρ^i,sparseautoencoderi.
  • β,sparseautoencoder.

这里写图片描述

a(2)1a(2)2a(2)3hW,b(x)=f(W(1)11x1+W(1)12x2+W(1)13x3+b(1)1)=f(W(1)21x1+W(1)22x2+W(1)23x3+b(1)2)=f(W(1)31x1+W(1)32x2+W(1)33x3+b(1)3)=a(3)1=f(W(2)11a(2)1+W(2)12a(2)2+W(2)13a(2)3+b(2)1)

简洁地表示:
z(2)a(2)z(3)hW,b(x)=W(1)x+b(1)=f(z(2))=W(2)a(2)+b(2)=a(3)=f(z(3))

损失函数:

J(W,b)=[1mi=1mJ(W,b;x(i),y(i))]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2=[1mi=1m(12hW,b(x(i))y(i)2)]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2

第一项是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合
[注:通常权重衰减的计算并不使用偏置项 b(l)iJ(W,b) 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。]

我们需要将每一个参数W(l)ijb(l)i 初始化为一个很小的、接近零的随机值(比如说,使用正态分布Normal(0,ϵ2)ϵ0.01 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 J(W,b)是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为 0。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有iW(1)ijxa(2)1=a(2)2=a(2)3=。随机初始化的目的是使对称失效

后向传播求偏导:

W(l)ijJ(W,b)b(l)iJ(W,b)=1mi=1mW(l)ijJ(W,b;x(i),y(i))+λW(l)ij=1mi=1mb(l)iJ(W,b;x(i),y(i))

用反向传播算法计算偏导数,思路如下:给定一个样例(x,y),我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括 hW,b(x) 的输出值。之后,针对第 l 层的每一个节点 i,我们计算出其“残差” δ(l)i,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为δ(nl)inl)。对于隐藏单元我们如何处理呢?我们将基于节点(第 l+1 层节点)残差的加权平均值计算 δ(l)i,这些节点以a(l)i作为输入。下面将给出反向传导算法的细节:

  1. 进行前馈传导计算,利用前向传导公式,得到 L2,L3, 直到输出层 Lnl 的激活值。
  2. 对于第 nli,我们根据以下公式计算残差:

    δ(nl)i=znliJ(W,b;x,y)=znli12yhW,b(x)2=znli12j=1Snl(yja(nl)j)2=znli12j=1Snl(yjf(z(nl)j))2=(yif(z(nl)i))f(z(nl)i)=(yia(nl)i)f(z(nl)i)

  3. l=nl1,nl2,nl3,,2li个节点的残差计算方法如下:
    δ(l)i=(sl+1j=1W(l)jiδ(l+1)j)f(z(l)i)
    注:

    δ(nl1)i=znl1iJ(W,b;x,y)=znl1i12yhW,b(x)2=znl1i12j=1Snl(yja(nl)j)2=12j=1Snlznl1i(yja(nl)j)2=12j=1Snlznl1i(yjf(z(nl)j))2=j=1Snl(yjf(z(nl)j))z(nl1)if(z(nl)j)=j=1Snl(yjf(z(nl)j))f(z(nl)j)z(nl)jz(nl1)i=j=1Snlδ(nl)jz(nl)jznl1i=j=1Snlδ(nl)jznl1ik=1Snl1f(znl1k)Wnl1jk=j=1Snlδ(nl)jWnl1jif(znl1i)=j=1SnlWnl1jiδ(nl)jf(znl1i)

    以上逐次从后向前求导的过程即为“反向传导”的本意所在.

  4. 计算我们需要的偏导数,计算方法如下:

W(l)ijJ(W,b;x,y)b(l)iJ(W,b;x,y)=a(l)jδ(l+1)i=δ(l+1)i.

PS:如果选择 f(z)=1/(1+exp(z)) ,也就是sigmoid函数,那么它的导数就是 f(z)=f(z)(1f(z))tanhf(z)=1(f(z))2

相关文章推荐

基本pso优化神经网络程序

  • 2013年11月15日 16:04
  • 35KB
  • 下载

机器学习总结(七):基本神经网络、BP算法、常用激活函数对比

1.   神经网络 (1)为什么要用神经网络? 对于非线性分类问题,如果用多元线性回归进行分类,需要构造许多高次项,导致特征特多学习参数过多,从而复杂度太高。 (2)常用的激活函数及其优...

神经网络基本介绍

  • 2017年05月06日 13:51
  • 583KB
  • 下载

神经网络基本算法的VC程序源码

  • 2016年10月18日 13:14
  • 461KB
  • 下载

专题:深度神经网络基本问题的原理详细分析和推导

这是一篇关于神经网络算法设计的几个基本问题的理论分析的专题文章,涉及到比较多的原理推导。文章的主体来自Ian Goodfellow 的《Deep Learning》;Andrew Ng在Courser...
  • zpcxh95
  • zpcxh95
  • 2017年04月10日 17:23
  • 3197

BP神经网络基本原理

  • 2012年01月22日 15:40
  • 93KB
  • 下载

简要介绍神经网络基本教程

  • 2011年03月24日 13:07
  • 2.42MB
  • 下载

3.2 神经网络基本结构及梯度下降算法

3.2 大白话:神经网络基本结构及梯度下降算法 每个输入层都是和隐藏层相连接的,每个输入的连接是:输入值乘以权重加上的偏置,经过sigmoid function得到下一层的值。 深度学习的...

神经网络的基本算法源程序

  • 2010年08月20日 16:53
  • 128KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基本神经网络
举报原因:
原因补充:

(最多只允许输入30个字)