CV领域-图像分类-LeNet

LeNet5

背景知识: 1998年(好像是吧),为了识别支票中手写数字识别被发明出来的。
结构很简单
输入层(输入层不计入网络层数)
卷积1层
池化1层
卷积1层
池化1层
卷积1层
全连接1层
输出(全连接)1层

就这样。
这里用到两个公式
卷积计算公式与池化计算公式
卷积:
W(输出)=(W(输入)-K+2P)/S+1
其中K是卷积核的大小,P是填充数,S是步长。W是尺寸(一般图像的长宽都是一样的)。还有一点就是通道数C,C=K 也就是说通道数=卷积核的个数。
池化:
LeNet论文中(当然了,我没看原论文,看的是大佬总结。)用的是22的窗口进行池化,意思就是在22的窗口中选一个,也就是1*1,那么特征图的大小就变成原来的一半了。
由于池化不改变通道数,所以
C(输入)=C(输出)
(我自己理解为 填充为2,步长为2。那么根据池化计算公式(W=(W-P)/S+1)也可以计算。。。)


破案了,感谢大佬 这里大佬总结到,在AlexNet出来之前,池化层中的填充与步长是一样的,在AlexNe中提到层叠池化网络,填充数大于步长。


根据上面的结构与公式,我们来算一下
输入层32 * 32 C=1(灰度图,所以通道数=1)
第一个卷积:
K = 5, P = 0, S = 1,C=6(这里面是卷积核的个数=6,你也可以认为是通道数=6,这里不懂可以评论留言)
(32-5+2 * 0)/1+1=28(长宽都是32,所以计算后都是28)
C = 6
结果 28 * 28, C=6
第一个池化:
28 * 28 -> 14 * 14
C=6(不变)
结果 28 * 28, C=6
第二个卷积:
K = 5, P = 0, S = 1,C=16
(14-5+2*0)/1+1=10
结果: 10 * 10, C=16

第二个池化:
10 * 10 -> 5 * 5
C = 16(不变)
结果: 5 * 5,C=16

第三个卷积;
K = 5, P = 0, S = 1,C=120
(5-5+2*0)/1+1=1
结果:1 * 1, C=120

第一个全连接
(全连接规定输入输出即可)论文(大佬总结)中的图片是84,那么通道数就是120->84
结果;1*1, C=84
第二个全连接
输出=10(也就是10个数字0,1,2…)


至此结构就完事了,给你们看个老图
在这里插入图片描述
代码块之后写完的话,我在贴上来(偷个懒哈哈哈哈,也可以看看其它大佬的(推荐B站的小土堆,保姆级的大佬。))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值