卷积神经网络

原创 2017年07月24日 18:17:18

什么是卷积

首先看卷积公式

y(t)=f(t)g(t)=f(u)g(tu)du

它是通过两个函数 f(t) 和 g(t) 来生成第三个函数的一种数学算子。从负无穷到正无穷遍历全部 u 值,把 g(t-u) 的值乘以 f(u) 的值之后再进行累加,得到关于该累加操作的关于 t 的函数。从另一个角度看,卷积就是一种加权求和。

用离散信号方便理解卷积的操作。有两个函数f(n)和g(n),分别如下:

这里写图片描述

这里写图片描述

则卷积运算f(n)*g(n)过程为,

首先,f(n)乘以g(0),g(0)为1,则

这里写图片描述

其次,f(n)乘以g(1)并整个右移一个单位,g(1)为2,则

这里写图片描述

接着,f(n)乘以g(2)并整个右移一个单位,g(2)为2,则

这里写图片描述

同样,f(n)乘以g(3)并整个右移一个单位,g(3)为3,则

这里写图片描述

最后,将4个图叠加即完成卷积运算。

这里写图片描述

所以卷积就是一个函数在另一个函数的加权叠加。它是一种加权求和。

对于二维卷积,对应的公式为:

C(x,y)=f(t,u)g(xt,yu)dtdu

离散公式为:

C(x,y)=t=u=f(t,u)g(xt,yu)

二维卷积的运算过程中涉及到 f(t,u) 函数矩阵的180度翻转,而卷积神经网络的卷积运算则稍微有点不同,运算过程不进行180度翻转,且g在前f在后。

从卷积神经网络来看,f(x,y) 可看成是2*2 或 3*3的网格,即卷积核,而 g(x,y) 则对应图像的像素,比如28*28,则卷积操作其实就是卷积核 f 在图像 g 上一格格移动而做的乘积并累加和。详细的操作后面会有形象说明。

神经网络

了解卷积神经网络之前需先了解最基础的BP神经网络,BP神经网络一般如下图所示,有多个层,比如左边的包含输入层、隐层和输出层,而右边的则包含了两个隐层。每层的神经元与下一神经元全互连,同层之间的神经元不会相连,输入层用于接收输入,经过隐层加工后再到输出层加工并输出。

这里写图片描述

BP神经网络好的地方就是我们完全不必事先考虑怎么用数学方程来描述输入和输出之间的关系,转而考虑的是设计一个N层神经网络,而要多少层、每层要多少个节点就可以我们根据经验来设计,可通过不同的网络模型来看哪个模型能更好地拟合。

BP神经网络其实很直观很好理解,整个过程如下。

下面是一个三层(不算输入层)神经网络,两个输入经过几层网络后得到一个输出。

这里写图片描述

在训练该网络的过程中,输入x1x2,f1(e)节点对应的权重为w(x1)1w(x2)1,则有y1=f1(w(x1)1+w(x2)1)

这里写图片描述

f2(e)节点对应的权重为w(x1)2w(x2)2,则有y2=f2(w(x1)2+w(x2)2)
这里写图片描述

f3(e)节点对应的权重为w(x1)3w(x2)3,则有y3=f3(w(x1)3+w(x2)3)
这里写图片描述

这么一来就得到第一层隐层的所有信号输出,接下去往下一层传播,这时对于第二层隐层来说,第一层隐层的所有节点的输出就是它的输入,这时输入节点变为3个,分别为y1y2y3,对应权重为w14 w24 w34,则y4=f4(w14y1+w24y2+w34y3)

这里写图片描述

f5(e)对应的权重为w15 w25 w35,则y5=f5(w15y1+w25y2+w35y3)
这里写图片描述

于是又得到第二层隐层的两个输出,继续往下一层(输出层)传播,对于输出层,第二层隐层的两个节点的输出即为它的输入,此时输入节点为2个,分别为y4y5,假设权重分别为w46 w56,则y6=f6(w46y4+w56y5)

这里写图片描述

卷积神经网络

可以看到上面的BP神经网络层与层之间都是全连接的,对于图像处理领域,当神经网络处理大图像时,全连接会导致待训练的参数非常庞大,比如100万个像素的图像,对于100个节点的隐层,则会产生亿级别的参数,如果更多层及更多个节点那参数数量将会无比庞大。BP神经网络没有假设相邻图像之间存在紧密联系。综上所述,BP神经网络不适合做图像处理。

为减少参数数量,首先想到可以构建部分连接的神经网络,每个神经元不再与上层所有神经元相连,而是连接某部分。另外还能通过权值共享来减少参数数量,一组连接共享权重而不必每个连接权重都不同。除此之外,还能通过池化来减少每层的样本数,从而减少参数数量。结合以上特点,卷积神经网络就是这样的一种网络。

看一个卷积神经网络示意图,它包含了若干卷积层、池化层和全连接层。图像输入经过第一层卷积层处理后,得到4层feature,为什么可以是4层呢?其实就是可以自定义4个不同的filter对输入分别运算,就得到4层feature。然后池化层对卷积后的feature进行池化处理,得到更小的feature,这里运算后同样是4层feature。接着继续根据filter做卷积和池化处理,最后通过两个全连接层完成输出。

这里写图片描述

卷积层

前面说到卷积操作其实就是卷积核 f 在图像 g 上一格格移动而做的乘积并累加和,具体的操作如下两个图,g(x,y) 是一个5*5的图像,卷积核 f(x,y) 是3*3的网格。卷积核在图像上逐步移动计算乘积并累加,最后得到一个3*3的特征映射。

这里写图片描述

这里写图片描述

移动的步伐为1个单位,当然也可以2个单位地移动。而前面说到的卷积操作可以由多个filter进行运算,这时卷积运算是怎样进行的呢?下图形象地展示了整个过程,其中输入有3层的数据,再定义两个3*3*3的filter,分别为Filter W0 和Filter W1 ,Filter W0以2个单位移动,3个维度分别对应输入层做乘积累加运算得到3个结果,再将这3个结果加起来并加上偏移量b0得到最终结果。Filter W0遍历输入得到一个3*3的输出,同样地,Filter W1也是进行同样地操作得到另外一个3*3输出。最终的输出就是一个3*3*2的网络。

另外可以看到最外一圈都为0,这是一种处理边界的方式,叫zero padding,通过它不会让边缘的特性丢失。

这里写图片描述

池化层

常见的池化有两种,最大值池化和平均值池化。最大值池化即在区域中选择最大值作为池化后的值,而平均值池化则是区域中所有值的平均值作为池化后的值。

它的思想可以看下图,卷积处理后特征还是具有较多神经元,通过池化抽样处理后减少了神经元。

这里写图片描述

池化处理的好处就是能显著减少参数的数量,并且池化单元具有平移不变性。

全连接层

特征都提取好后将进入到一个全连接层,全连接层其实就像前面的经典的BP神经网络,经过多层卷积和池化层处理后参数已经大大减少,一般最后再通过添加 softmax 分类器实现最终的识别。

训练卷积神经网络

卷积神经网络的训练比全连接神经网络的训练复杂很多,因为全连接神经网络相邻两层的所有神经元都相连,而卷积神经网络则要知道哪些神经元之间相连,而且还引入了池化层,都导致了训练更加复杂。但本质思想上两者是一致的,都是误差逆传播。

一般卷积神经网络的结构为输入层->卷积层->采样层->卷积层->采样层->…->卷积层->采样层->输出层。比如如下图:

这里写图片描述

输出层

首先定义n个样本的代价函数

E=12Nn=1ci(zniyni)2

则某个样本的误差为

Ed=12i(ziyi)2

输出层的激活函数可以有很多种,这里用s函数,它的输出范围是0到1,通过训练让误差趋于0。所以更新公式为

wjiwji+ηδjxji

其中δj=Ednodej=δj=(tjyj)yj(1yj)

采样层

采样层干的事就是误差传递,它不涉及需要学习的参数。比如常见的最大值池化,现在假设l+1层为采样层,l层为卷积层,则设netli,j为l层的加权输入,netl+1a,b则为l+1层的加权输入,于是可以得到

netl+1a,b=max(netli,j)

也就是l+1层的值分别为l层对应输入值中最大的那个值,除了最大值,l层的其他的三个输入对l+1层没有贡献,在链式求导过程中,采样层的netl+1a,bnetli,j为1,所以采样层只是将误差原封不动传递给上一层的卷积层。

这里写图片描述

如果使用了均值池化则是将误差平均分配到上一层卷积层对应的神经元上。

卷积层

现在只看步长为1、深度为1且filter为1的情况,左边绿色表示l-1层的输入,中间黄色是filter,右边红色是l层的误差项。

这里写图片描述

netl为l层神经元的加权输入数组,Wl为filter的权重数组,wb为filter偏置项,al1为l-1层输出数组,设卷积操作为 conv,则有,

netl=conv(Wl,al1)+wb

al1i,j=fl1(netl1i,j)

l层的误差项可以通过上面的抽样层计算得到(可看成由输出层误差传递到抽样层),根据链式求导法则,有

δl1i,j=Ednetl1i,j=Edal1i,jal1i,jnetl1i,j=Ednetli,jnetli,jal1i,jal1i,jnetl1i,j

1、 其中Ednetli,j则是对应l层的误差项;

2、 netli,jal1i,j,l-1层的输出相对于filter随着窗口的移动而会产生不同的误差分量,所以计算netli,jal1i,j,相当于把第l层的误差项周围补一圈0,在与180度翻转后的filter进行互相关操作。

这里写图片描述

3、 al1i,jnetl1i,j则是激活函数的导数f(netl1i,j)

所以,

δl1i,j=mnwlm,nδli+m,j+nf(netl1i,j)

========广告时间========

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

欢迎关注:

这里写图片描述

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

卷积神经网络

  • 2016-04-28 09:48
  • 2.02MB
  • 下载

卷积神经网络论文

  • 2017-04-13 19:23
  • 6.23MB
  • 下载

YJango的卷积神经网络——介绍

该文对卷积神经网络的讲解主要是以不同的思考侧重展开。 主要讨论为什么这样卷积处理信息,这样做带来了哪些好处。 通过对卷积神经网络的分析,进一步理解神经网络变体中“因素共享”这一概念。

卷积神经网络代码c++

  • 2014-09-21 20:00
  • 10.29MB
  • 下载

卷积神经网络(CNN)

 卷积神经网络(CNN) Apr 6th, 2013 | Comments 1. 概述 卷积神经网络是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面,一方面它的神经元间的...

卷积神经网络代码matlab

  • 2015-05-12 21:45
  • 14.04MB
  • 下载

卷积神经网络

  • 2014-10-14 15:52
  • 14.03MB
  • 下载

基于卷积神经网络(CNN)的中文垃圾邮件检测

前言跳过废话,直接看正文文本分类任务是一个经久不衰的课题,其应用包括垃圾邮件检测、情感分析等。传统机器学习的做法是先进行特征工程,构建出特征向量后,再将特征向量输入各种分类模型(贝叶斯、SVM、神经网...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)