计算机视觉实践（街景字符编码识别）——Task03：字符识别模型

最新推荐文章于 2024-07-27 09:45:00 发布

nanashi_F

最新推荐文章于 2024-07-27 09:45:00 发布

阅读量696

点赞数

分类专栏：可视化文章标签：计算机视觉

本文链接：https://blog.csdn.net/nanashi_F/article/details/106312420

版权

原教程：计算机视觉实践（街景字符编码识别） datawhalechina/team-learning · GitHub

关于CNN
————————————————
版权声明：本文为CSDN博主「v_JULY_v」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。

一、CNN介绍

1.基本原理

卷积神经网络（简称CNN）是一类特殊的人工神经网络，是深度学习中重要的一个分支。CNN在很多领域都表现优异，精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域，CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。

CNN每一层由众多的卷积核组成，每个卷积核对输入的像素进行卷积操作，得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野，并缩减图像的尺寸。

在这里插入图片描述
CNN是一种层次模型，输入的是原始的像素数据。
CNN由卷积（convolution）、池化（pooling）、非线性激活函数（non-linear activation function）和全连接层（fully connected layer）构成。

如下图所示为LeNet网络结构，是非常经典的字符识别模型。两个卷积层，两个池化层，两个全连接层组成。卷积核都是5×5，stride=1，池化层使用最大池化。
在这里插入图片描述
通过多次卷积和池化，CNN的最后一层将输入的图像像素映射为具体的输出。如在分类任务中会转换为不同类别的概率输出，然后计算真实标签与CNN模型的预测结果的差异，并通过反向传播更新每层的参数，并在更新完成后再次前向传播，如此反复直到训练完成。

与传统机器学习模型相比，CNN具有一种端到端（End to End）的思路。在CNN训练的过程中是直接从图像像素到最终的输出，并不涉及到具体的特征提取和构建模型的过程，也不需要人工的参与。

2.卷积层

对图像（不同的数据窗口数据）和滤波矩阵（一组固定的权重：因为每个神经元的多个权重固定，所以又可以看做一个恒定的滤波器filter）做内积（逐个元素相乘再求和）的操作就是所谓的卷积操作，也是卷积神经网络的名字来源。

举个例子：

对于图像，用不同的滤波器filter，还可提取想要的关于图像的特定信息（如颜色深浅或轮廓）

在CNN中，滤波器filter（带着一组固定权重的神经元）对局部输入数据进行卷积计算。每计算完一个数据窗口内的局部数据后，数据窗口不断平移滑动，直到计算完所有数据。这个过程中，有这么几个参数：
　　a. 深度depth：神经元个数，决定输出的depth厚度。同时代表滤波器个数。
　　b. 步长stride：决定滑动多少步可以到边缘。
　　c. 填充值zero-padding：在外围边缘补充若干圈0，方便从初始位置以步长为单位可以刚好滑倒末尾位置，通俗地讲就是为了总长能被步长整除。

可以看到：
1.两个神经元，即depth=2，意味着有两个滤波器。
2.数据窗口每次移动两个步长取33的局部数据，即stride=2。
3.zero-padding=1。
然后分别以两个滤波器filter为轴滑动数组进行卷积计算，得到两组不同的结果。
如果初看上图，可能不一定能立马理解啥意思，但结合上文的内容后，理解这个动图已经不是很困难的事情：
左边是输入（773中，77代表图像的像素/长宽，3代表R、G、B 三个颜色通道）
中间部分是两个不同的滤波器Filter w0、Filter w1
最右边则是两个不同的输出
随着左边数据窗口的平移滑动，滤波器Filter w0 / Filter w1对不同的局部数据进行卷积计算。

3.池化层

池化，简言之，即取区域平均或最大，如下图所示（图引自cs231n）

上图所展示的是取区域最大，即上图左边部分中左上角2x2的矩阵中6最大，右上角2x2的矩阵中8最大，左下角2x2的矩阵中3最大，右下角2x2的矩阵中4最大，所以得到上图右边部分的结果：6 8 3 4。很简单不是？

4.激励层

常用的非线性激活函数有sigmoid、tanh、relu等等，前两者sigmoid/tanh比较常见于全连接层，后者relu常见于卷积层。这里先简要介绍下最基础的sigmoid函数。
sigmoid的函数表达式如下：

其中z是一个线性组合，比如z可以等于：b + * + *。通过代入很大的正数或很小的负数到g(z)函数中可知，其结果趋近于0或1。

因此，sigmoid函数g(z)的图形表示如下（横轴表示定义域z，纵轴表示值域g(z) ）：

也就是说，sigmoid函数的功能是相当于把一个实数压缩至0到1之间。当z是非常大的正数时，g(z)会趋近于1，而z是非常小的负数时，则g(z)会趋近于0。
压缩至0到1有何用处呢？用处是这样一来便可以把激活函数看作一种“分类的概率”，比如激活函数的输出为0.9的话便可以解释为90%的概率为正样本。

但实际梯度下降中，sigmoid容易饱和、造成终止梯度传递，且没有0中心化。咋办呢，可以尝试另外一个激活函数：ReLU，其图形表示如下

ReLU的优点是收敛快，求梯度简单。

二、CNN发展

随着网络结构的发展，研究人员最初发现网络模型结构越深、网络参数越多模型的精度更优。比较典型的是AlexNet、VGG、InceptionV3和ResNet的发展脉络。
在这里插入图片描述

1.LeNet-5(1998)

在这里插入图片描述

LeNet是卷积神经网络的祖师爷LeCun在1998年提出，用于解决手写数字识别的视觉任务。LenNet-5共有7层（不包括输入层），每层都包含不同数量的训练参数，LeNet-5中主要有2个卷积层、2个池化层、3个全连接层3种连接方式。
LeNet5特征能够总结为如下几点：
1）卷积神经网络使用三个层作为一个系列：卷积，池化，非线性；
2）使用卷积提取空间特征；
3）使用映射到空间均值下采样（subsample）；
4）双曲线（tanh）或S型（sigmoid）形式的非线性；
5）多层神经网络（MLP）作为最后的分类器；
6）层与层之间的稀疏连接矩阵避免大的计算成本。
————————————————
版权声明：本文为CSDN博主「Residual NS」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_42823043/article/details/89514851

2.AlexNet(2012)

在这里插入图片描述

网络总共的层数为8层，5层卷积，3层全连接层
其实总的来看，卷积/池化操作没有太大变化，不过层数有所加深。整个网络主要的点有：
1.成功使用ReLU作为CNN的激活函数，并验证其效果在较深的网络超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题。其实我们之前提到这在1980年的时候就已经被应用过了，不过十几年前LeNet又因为种种原因改为tanh，直到AlexNet的出现才将其发扬光大。
2.使用了数据增强，这点在92年的Cresceptron被引入。
3.使用了小批量随机梯度下降法(mini-batch SGD)，这是98年LeNet的做法。
4.在GPU上训练，这得益于06年CNN在GPU上的实现。并且是分组卷积，因为当时真的是无奈，论文里说他们的GPU只有3G显存（GTX580），所以想要在一张显卡上放下所有东西显得有些吃力，所以才发明了分组卷积。
5.训练时使用Dropout随机忽略一部分神经元，以避免模型过拟合。Dropout虽有单独的论文论述，但是AlexNet将其实用化，通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。
6.提出了局部响应归一化(LRN)层，对

最低0.47元/天解锁文章

nanashi_F

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉实践（街景字符编码识别）——Task03：字符识别模型

计算机视觉实践（街景字符编码识别）——Task03：字符识别模型| 一、CNN介绍(1.基本原理 2.卷积层 3.池化层 4.激励层)| 二、CNN发展(1.LeNet-5(1998) 2.AlexNet(2012) 3.VGG-16(2014) 4.Inception-v1 (2014) 5.ResNet-50 (2015))| 三、Pytorch构建CNN模型
复制链接

扫一扫

专栏目录