基本神经网络

原创 2017年01月03日 09:59:03

符号 含义

  • x,,xRn.
  • y/,y.autoencodery=x.
  • (x(i),y(i)),i
  • hW,b(x),xW,b.y.
  • W(l)ij,ljl+1i.
  • b(l)i,l+1i.ll+1i.
  • θ,W,b.
  • a(l)i,li.L1a(1)i=xi
  • f(),f(z)=tanh(z).
  • z(l)i,li.a(l)i=f(z(l)i).
  • α,
  • sl,l.
  • nl,.L1Lnl.
  • λ,.
  • x^,autoencoderx.hW,b(x).
  • ρ,
  • ρ^i,sparseautoencoderi.
  • β,sparseautoencoder.

这里写图片描述

a(2)1a(2)2a(2)3hW,b(x)=f(W(1)11x1+W(1)12x2+W(1)13x3+b(1)1)=f(W(1)21x1+W(1)22x2+W(1)23x3+b(1)2)=f(W(1)31x1+W(1)32x2+W(1)33x3+b(1)3)=a(3)1=f(W(2)11a(2)1+W(2)12a(2)2+W(2)13a(2)3+b(2)1)

简洁地表示:
z(2)a(2)z(3)hW,b(x)=W(1)x+b(1)=f(z(2))=W(2)a(2)+b(2)=a(3)=f(z(3))

损失函数:

J(W,b)=[1mi=1mJ(W,b;x(i),y(i))]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2=[1mi=1m(12hW,b(x(i))y(i)2)]+λ2l=1nl1i=1slj=1sl+1(W(l)ji)2

第一项是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合
[注:通常权重衰减的计算并不使用偏置项 b(l)iJ(W,b) 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。]

我们需要将每一个参数W(l)ijb(l)i 初始化为一个很小的、接近零的随机值(比如说,使用正态分布Normal(0,ϵ2)ϵ0.01 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 J(W,b)是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为 0。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有iW(1)ijxa(2)1=a(2)2=a(2)3=。随机初始化的目的是使对称失效

后向传播求偏导:

W(l)ijJ(W,b)b(l)iJ(W,b)=1mi=1mW(l)ijJ(W,b;x(i),y(i))+λW(l)ij=1mi=1mb(l)iJ(W,b;x(i),y(i))

用反向传播算法计算偏导数,思路如下:给定一个样例(x,y),我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括 hW,b(x) 的输出值。之后,针对第 l 层的每一个节点 i,我们计算出其“残差” δ(l)i,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为δ(nl)inl)。对于隐藏单元我们如何处理呢?我们将基于节点(第 l+1 层节点)残差的加权平均值计算 δ(l)i,这些节点以a(l)i作为输入。下面将给出反向传导算法的细节:

  1. 进行前馈传导计算,利用前向传导公式,得到 L2,L3, 直到输出层 Lnl 的激活值。
  2. 对于第 nli,我们根据以下公式计算残差:

    δ(nl)i=znliJ(W,b;x,y)=znli12yhW,b(x)2=znli12j=1Snl(yja(nl)j)2=znli12j=1Snl(yjf(z(nl)j))2=(yif(z(nl)i))f(z(nl)i)=(yia(nl)i)f(z(nl)i)

  3. l=nl1,nl2,nl3,,2li个节点的残差计算方法如下:
    δ(l)i=(sl+1j=1W(l)jiδ(l+1)j)f(z(l)i)
    注:

    δ(nl1)i=znl1iJ(W,b;x,y)=znl1i12yhW,b(x)2=znl1i12j=1Snl(yja(nl)j)2=12j=1Snlznl1i(yja(nl)j)2=12j=1Snlznl1i(yjf(z(nl)j))2=j=1Snl(yjf(z(nl)j))z(nl1)if(z(nl)j)=j=1Snl(yjf(z(nl)j))f(z(nl)j)z(nl)jz(nl1)i=j=1Snlδ(nl)jz(nl)jznl1i=j=1Snlδ(nl)jznl1ik=1Snl1f(znl1k)Wnl1jk=j=1Snlδ(nl)jWnl1jif(znl1i)=j=1SnlWnl1jiδ(nl)jf(znl1i)

    以上逐次从后向前求导的过程即为“反向传导”的本意所在.

  4. 计算我们需要的偏导数,计算方法如下:

W(l)ijJ(W,b;x,y)b(l)iJ(W,b;x,y)=a(l)jδ(l+1)i=δ(l+1)i.

PS:如果选择 f(z)=1/(1+exp(z)) ,也就是sigmoid函数,那么它的导数就是 f(z)=f(z)(1f(z))tanhf(z)=1(f(z))2

神经网络入门基础知识 neural networks basics

神经网络入门基础知识 neural networks basics 也许现在提到深度学习(deep learning)连非计算机专业的人都听说过,尤其是最近“人机大战”更是掀起了人们对深度学习的极...
  • u012328159
  • u012328159
  • 2016年04月13日 22:29
  • 11704

神经网络基本结构

MLP(MultiLayer Perceptrons) 多层神经网络 sigmoid neurons""" network.py ~~~~~~~~~~A module to implement the...
  • u012724704
  • u012724704
  • 2017年03月06日 20:59
  • 194

3.2 神经网络基本结构及梯度下降算法

3.2 大白话:神经网络基本结构及梯度下降算法 每个输入层都是和隐藏层相连接的,每个输入的连接是:输入值乘以权重加上的偏置,经过sigmoid function得到下一层的值。 深度学习的...
  • u011507206
  • u011507206
  • 2016年12月08日 16:44
  • 491

神经网络入门最好的一篇文章

http://iamtrask.github.io/2015/07/12/basic-python-network/
  • guotong1988
  • guotong1988
  • 2016年01月19日 16:30
  • 1020

漫谈四种神经网络序列解码模型

机器翻译是目前NLP和deep learning结合的研究热点以及未来的研究发展方向,这篇文章转载介绍了基于RNN(recurrent neural network)的四种解码序列模型, 模型背景介绍...
  • July_sun
  • July_sun
  • 2016年10月06日 18:44
  • 770

一文看懂25个神经网络模型

1. 引言在深度学习十分火热的今天,不时会涌现出各种新型的人工神经网络,想要实时了解这些新型神经网络的架构还真是不容易。光是知道各式各样的神经网络模型缩写(如:DCIGN、BiLSTM、DCGAN……...
  • qq_35082030
  • qq_35082030
  • 2017年06月17日 10:26
  • 7409

关于神经网络中过拟合的问题

关于神经网络中过拟合的问题在训练的时候你的模型是否会出现训练时速度很慢?或者预测结果与训练结果相差过大的现象?那我们可能就需要处理一下过拟合的问题了。首先看一下overfitting维基百科上的一些信...
  • captain618
  • captain618
  • 2016年09月23日 16:39
  • 6498

9. 深度学习实践:卷积网络(续)

接上节叙述:9. 深度学习实践:卷积网络6. 结构化输出CNN可用于输出高维的结构化对象,不仅仅是预测分类任务的类标签,或者回归任务的实数值。通常该对象是一个张量,由标准卷积层产生。例如,模型可产生张...
  • niaolianjiulin
  • niaolianjiulin
  • 2018年01月19日 11:45
  • 44

神经网络学习笔记(七) 自组织竞争神经网络

自组织竞争神经网络一、概述自组织竞争神经网络是一种无监督的学习方法。与之前不同的是,前几节讲述的神经网络都是有标签,并且更新所有权值,但是他们并没有考虑到人体神经元的侧抑制现象,也就是在很多情况下,某...
  • cyhbrilliant
  • cyhbrilliant
  • 2016年10月12日 21:47
  • 3582

理解长短期记忆(LSTM) 神经网络

声明:本文翻译自colah的博客,原文地址:Understanding LSTM NETWORK递归神经网络人类并不是从混沌状态开始他们的思考。就像你读这篇文章时,你是建立在你之前对文字的理解上。你并...
  • u010900574
  • u010900574
  • 2016年07月04日 21:46
  • 5732
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基本神经网络
举报原因:
原因补充:

(最多只允许输入30个字)