[deeplearning-008] convertional neural networks卷积神经网络

最新推荐文章于 2021-12-19 12:47:40 发布

未济2019

最新推荐文章于 2021-12-19 12:47:40 发布

阅读量685

点赞数

本文链接：https://blog.csdn.net/lizhe_dashuju/article/details/78491655

版权

1.卷积神经网络的主要参考文献

1.1 https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247486731&idx=1&sn=f91e2361e62b0c73e34385143ad35e6a&scene=21#wechat_redirect

1.2 nature上的cnn描述

LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521.7553 (2015): 436-444. 下载 http://www.cs.toronto.edu/%7Ehinton/absps/NatureDeepReview.pdf

卷积网络，处理以多维数组方式输入的数据（也就是张量，narture需要可读性），语音，图像，视频。一个卷积神经网络，由一系列stage组成。第一个stage有两层，卷积层和池化层。卷积层的神经元，是特征映射，每一个神经元分别对应上一层的一个局部块区，这个神经元和这个块区之间存在多个权重系数，这些权重系数通称filter bank。一个层内，同一个特征映射的神经元分享同一个filter bank，参数共享，不同的参数映射的神经元的filter bank是不同的。池化层，主要解决语义相似性问题，通常使用最大值池化方法。

1.3 dl4j对卷积神经网络的解释

https://deeplearning4j.org/convolutionalnets.html

1.4 卷积神经网络图像处理课程的解释

http://cs231n.github.io/convolutional-networks/

这个是目前解释的最好的，对应的代码也就是convnetjs。

卷积神经网络，跟其他常规神经网络的差别，首先在于输入是多通道的图像，一个三维数组--常规的神经网络结构不能处理图像。（常规神经网络是全连接的，如果图像很大，那么，权重矩阵会大到不可思议，比如100x100的图像需要1万个神经元输入层，第一个隐层神经元数量也1万数量级，那么，第一个权重矩阵就是亿级别参数，太多了。卷积神经网络这一块的设计，也就是用tensor表示多维数组，然后从前向后进行计算，再从后向前做优化，tensor-flow这个名字很妥贴。）

卷积神经网络的神经元是3维的，有宽高深。比如，输入层是32x32x3，也就是输入图像是32像素宽32像素高rgb3个通道。输出层是1x1x10，是1像素宽1像素高10像素深。从前到手，都是这种三维的数据集进行各种变化和传递。

三种主要的层：卷积层，池化层，全连接层。

输入层，神经元是三维矩阵，32x32x3，输入图像是32x32的三通道图像。

卷积层，有12个卷积核，每个卷积核有自己的参数，每个卷积核都对输入层的图像做一次卷积计算，因此，生成了一个32x32x12的三维图像，depth是12。

RELU，主要是对卷积层的数据进行一次过滤，比如类似max(0,x)处理，因为，它的输出也是32x32x12。

POLL层，RELU层的数据进行downsampling，变成16x16x12。

FC层，这一层有10个神经元，它跟前一层的所有神经元都是全连接，也就是说，FC层和POLL层的权重矩阵是10x3072个。

每一层以不同的方式生成一个不同尺寸的tensor。

2.卷积神经网络的开源实现

2.1 theano

theano用的最广，被其他包大量使用，但代码比较复杂，主要是学术用途。

2.2 convnetjs

推荐一个js的开源卷积神经网络

https://github.com/karpathy/convnetjs

git clone https://github.com/karpathy/convnetjs.git

编译：
apt-get inatall ant
cd comlile
ant -lib yuicompressor-2.4.8.jar -f build.xml

3.convnetjs的一个demo

layer_defs = [];
layer_defs.push({type:'input', out_sx:24, out_sy:24, out_depth:1});
layer_defs.push({type:'conv', sx:5, filters:8, stride:1, pad:2, activation:'relu'});
layer_defs.push({type:'pool', sx:2, stride:2});
layer_defs.push({type:'conv', sx:5, filters:16, stride:1, pad:2, activation:'relu'});
layer_defs.push({type:'pool', sx:3, stride:3});
layer_defs.push({type:'softmax', num_classes:10});

net = new convnetjs.Net();
net.makeLayers(layer_defs);

trainer = new convnetjs.SGDTrainer(net, {method:'adadelta', batch_size:20, l2_decay:0.001});

4.本地运行convnetjs

4.1 如前所所说的进行编译。

4.2 在demo目录找到mnist.html，用firefox或者ie打开运行，不要用chrome，chrome会有跨域安全问题。在运行时，会遇到找不到一个js和两个图像问题的问题，请到作者主页的mnist demo页面找到下载然后放到demo/mnist目录下即可。mnist demo对应的源码如下：

layer_defs = [];
  layer_defs.push({type:'input', out_sx:24, out_sy:24, out_depth:1});
  layer_defs.push({type:'conv', sx:5, filters:8, stride:1, pad:2, activation:'relu'});
  layer_defs.push({type:'pool', sx:2, stride:2});
  layer_defs.push({type:'conv', sx:5, filters:16, stride:1, pad:2, activation:'relu'});
  layer_defs.push({type:'pool', sx:3, stride:3});
  layer_defs.push({type:'softmax', num_classes:10});
  
  net = new convnetjs.Net();
  net.makeLayers(layer_defs);
  
  trainer = new convnetjs.SGDTrainer(net, {method:'adadelta', batch_size:20, l2_decay:0.001});

4.3 mnist demo的运行解释

4.3.1 input层

input(24x24x1)，表示，输入是一个24x24像素的单通道图像，也就是灰度图像，如果是rgb图像，那么input就是24x24x3。

max activation:0.5，输入层对应的多个神经元的最大激活值是0.5; min:-0.5，最小激活值是-0.5。

max gradient, min gradient，输入层和下一层的权重系数求解，梯度下降法，最大梯度和最小梯度。

4.3.2 conv层

conv(24x24x8)，表示，在卷积层，有8个卷积核，生成8个卷积神图像，每一个卷积图像是24x24像素。

filter size 5x5x1，表示，卷积核是5x5像素卷积核，它只跟输入图像做连接，因为输入图像只有一个通道，所以是5x5x1。stride 1，表示，卷积核每次移动一步，也就是每次移动一个像素。

activation和gradient意义不重复了。

parameters，有多少个参数。每个卷积图像5x5x1，因此有25个权重系数，每个卷积图像分别有一个bias，有8个卷积图像，一共是8x(5x5+1)=208个参数。

卷积层的参数，都是随机初始化的，因此8个卷积图像也是随机初始化之后训练出来的，8个图像是相似的，但又有各自的不同。人脸识别时代，非常强调lda face或者pca face的正交系，正交系产生了单位 face，在dl时代，可能就不对此做要求了，训练出啥样就啥样。会不会8个图像都完全一样？概率很小，这会导致loss过大。

4.3.3 relu层

relu层，相当于对conv层进行一次提升对比度的处理，如果conv层的激活值在某个范围内，就置0，否则输出一个计算后的激活值。relu层的每个图，跟conv图是一一对应的关系，没有权重系数。

4.3.4 pool层

pooling size 2x2，表示，池化在2x2像素尺寸上进行，stride 2，表示，池化窗每次移动两步，也就是两个像素。根据池化的概念，其实stride和pooling size必然是一样的，同一个值。2x2的池化尺寸，就导致relu层的图像缩减到12x12了，也是8个。通常使用最大值池化，因此，pool层和relu层的max activation必然是一样的。

4.3.5 conv层，也就是第二个卷积层

conv(12x12x16)，表示，这一层有16个卷积图，每个图尺寸是12x12像素。

filter size 5x5x8，这表示，这个卷积层的卷积核是5x5像素尺寸的，又因此前一层的depth是8，而卷积核每次处理前一层的全部深度，所以卷积核的尺寸必然是5x5x8，连接了前一层的8个图像，stride 1，表示卷积核每次移动一步，也就是一个像素。

parameters:16x(5x5x8+1)=3216个。

4.3.6 relu层，第二个relu层

原理同前。

4.3.7 pool层，第二个池化层

原理同前。

4.3.8 fc层

全连接层。

fc (1x1x10)，有10个二维神经元矩阵，每一个神经元矩阵是1x1，其实就是用来判断一个图像是哪个数字。

parameters: 10x(4x4x16+1)=2570，这一层，每一个神经元都跟迁移层所有神经元进行连接。

4.3.9 softmax(1x1x10)

这一层，跟fc层几乎是一样的，把最大的置1,其他的置0。

5.convnetjs源码分析

5.1 convnet_net.js分析

这个文件，整体而言，是一个复杂的匿名函数，(function(global){ /*这里是所有源码*/ })(convnetjs)，前一个小括号(function(global){ /*这里是所有源码*/ })，定义了一个匿名函数，后一个小括号(convnetjs)表示执行这个匿名函数，参数是convnetjs。这个convnetjs在前面一个效果好的匿名函数里被定义被global。这个理解是有一点点绕的。

Net进行如下操作：

对定义参数进行二次处理。

生成相应的层。

定义前馈计算。

定义反馈计算。

json序列化和反序列化。

未完待续

未济2019

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[deeplearning-008] convertional neural networks卷积神经网络

1. 巨头报告对cnn的解释LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521.7553 (2015): 436-444.http://www.cs.toronto.edu/%7Ehinton/absps/NatureDeepReview.pdf
复制链接

扫一扫