【图像分类】从LeNet-5说起

最新推荐文章于 2024-08-21 04:30:28 发布

CZTSummer

最新推荐文章于 2024-08-21 04:30:28 发布

阅读量2.7k

点赞数

分类专栏：图像分类

本文链接：https://blog.csdn.net/u010325168/article/details/100053601

版权

图像分类专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.LeNet介绍：

LeNet是最早的经典卷积网络。在手写数字识别方面达到了惊人的效果，推动了手写数字识别的商用化。在LeNet推出的年代，多层感知机的概念已经不陌生，但是由于多层感知机的稠密链接造成参数数量过大，并没有在图像领域得到很好的应用。卷积神经网络是NN通向2d领域的钥匙，这把钥匙在后来逐渐演化为最强的特征提取器。

a.用于手写数字识别，输入为一维的灰度图像，输入图像维度为 $32\times 32\times 1$ 。

2.LeNet结构：

第一层(C1)：卷积层。卷积核大小为 $5\times 5$ ，共使用了6个filter，step为1。在卷积时没有使用padding（文章中有提到 $32\times 32$ 的输入实际上比常用的 $28\times 28$ 的输入要大，可以认为是在输入的时候就已经padding过了）。所以卷积得到的feature map维度为 $28\times28\times 6$ 。第一层可训练参数为 $（5\times 5\pm \pm 1）\pm \times 6=156$ $\left ( 5\times 5+1 \right )\times6=156$ ，其中5*5表示是filter的大小，+1是加上了bias，*6表示有6个filter。

第二层(S2)：池化层。采用的是2*2的池化，池化过程类似与平均池化。池化时把2*2区域求和然后乘上一个可训练系数，在加上bias，最后通过sigmoid，进行非线性化。池化没有overlap，所以可以认为step为2。池化后输出的feature map大小为14*14*6。可训练参数为2*6 = 12，2是每个池化过程包含了一个可训练系数和一个bias。

第三层(C3)：卷积层。卷积核大小为5*5，共使用了16个filter，step为1。输入为第二层输出的feature map的多维组合，组合方法如下：