CNN的学习

最新推荐文章于 2022-12-05 16:45:29 发布

muzixuanhan

最新推荐文章于 2022-12-05 16:45:29 发布

阅读量607

点赞数

开始接触CNN，把自己的理解记录下来，如果有错误，欢迎指正。

上图左：全连接网络。如果我们有1000x1000像素的图像，有1百万个隐层神经元，每个隐层神经元都连接图像的每一个像素点，就有1000x1000x1000000=10^12个连接，也就是10^12个权值参数。

上图右：局部连接网络，每一个节点与上层节点同位置附件10x10的窗口相连接，则1百万个隐层神经元就只有100w乘以100，即10^8个参数。其权值连接个数比原来减少了四个数量级。

卷积神经网络另外一个特性是权值共享。例如，就上面右边那幅图来说，权值共享，不是说，所有的红色线标注的连接权值相同。而是每一个神经元使用的卷积核都是一样的。

图为用于文字识别的LeNet-5深层卷积网络。

输入是32*32大小的图片，局部滑动窗的大小是5*5的，步长为1时，C1的大小就为（32-5+1）*（32-5+1），使用了6个不同的卷积核，C1层有（5*5+1）*6=156个可训练参数，连接为156*(28*28)=122,304个。

S2层是C1层的下采样，用C1层的四个相邻像素求和，加一个权值和一个阈值，结果通过sigmoid函数计算，S2层的大小为（14）*（14），S2层有（1+1）*6=12个可训练参数，连接为12*14*14=5880个。

C3层也是一个卷积层，它同样通过5x5的卷积核去卷积层S2，然后得到的特征map就只有10x10个神经元，但是它有16种不同的卷积核，所以就存在16个特征map了。这里需要注意的一点是：C3中的每个特征map是连接到S2中的所有6个或者几个特征map的，表示本层的特征map是上一层提取到的特征map的不同组合（这个做法也并不是唯一的）。

存在的如上图的一个方式是：C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。这样C3层有1516个可训练参数和151600个连接。（这里不是特别懂，求指导！）

S4层是对C3层的下采样，大小为5*5，共有16给个feature map,此时S4层有2*16=32个可训练参数和2000个连接。

C5是卷积层，有120个Feature Map。每个单元与S4层的全部16个单元的5*5邻域相连。由于S4层特征图的大小也为5*5（同滤波器一样），故C5特征图的大小为1*1，这构成了S4和C5之间的全连接。那么此时特征图的维数就会比1*1大。C5层有48120个可训练连接。（5*5*120*16+120）

F6层有84个单元（之所以选这个数字的原因来自于输出层的设计），与C5层全相连。有10164个可训练参数。如同经典神经网络，F6层计算输入向量和权重向量之间的点积，再加上一个偏置。然后将其传递给sigmoid函数产生单元i的一个状态。

muzixuanhan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CNN的学习

上图左：全连接网络。如果我们有1000x1000像素的图像，有1百万个隐层神经元，每个隐层神经元都连接图像的每一个像素点，就有1000x1000x1000000=10^12个连接，也就是10^12个权值参数。上图右：局部连接网络，每一个节点与上层节点同位置附件10x10的窗口相连接，则1百万个隐层神经元就只有100w乘以100，即10^8个参数。其权值连接个数比原
复制链接

扫一扫