卷积神经网络说明书

「已注销」

已于 2023-03-10 18:39:31 修改

阅读量249

点赞数 1

文章标签： cnn 深度学习机器学习

于 2022-10-30 19:34:37 首次发布

本文链接：https://blog.csdn.net/qq_38836499/article/details/127603532

版权

概述

前言

出于学校的数模课程需要、个人笔记的整理和自己入门时的痛苦，制作一份CNN基本流程的说明书以供入门的同学学习。

模型概述

目前图像的分辨率越来越高，一张图像所包含的数据也越来越多，使用传统的机器学习方法如支持向量机时需要处理极高维度的数据，使用降维方法则可能丢失图像的信息；即使使用神经网络也面临同样的难题，网络结构将异常庞大。

卷积神经网络是一种深度学习模型，其基本思想是模拟动物对视觉信息的处理，在通过不断的卷积和池化对图像特征进行提取、结合的过程中同时对数据进行了降维处理，保持了结构上的相关信息，最后将所得到的特征输入神经网络，处理得到所需结果。

随着相关研究的发展，卷积神经网络引入了模块化、残差连接和去除全连接层等方法，网络的整体结构的设计也会因识别任务而有所不同，这里以较为简单成熟的AlexNet[1]的结构（具体结构如下所示）为例进行介绍。

AlexNet结构

使用场景

卷积神经网络适用于图像的分类和识别等领域，也可以作为目标检测的底层基本结构。

模型结构

AlexNet主要由卷积层、池化层和全连接层构成，下面分别进行介绍。

卷积层

卷积过程

卷积操作是卷积神经网络与神经网络最大的不同之处，也是其完成图像识别任务的核心。

卷积操作相当于图像处理中的"滤波器运算"，以一定大小的滑动窗口及步长在输入的图像上进行乘积累加运算（如上图所示），最后得到的矩阵即为所提取得到的"特征图"。

多通道卷积

多通道卷积的过程和单通道卷积类似，只不过数的图像和使用的卷积核都会多一个维度，但是操作是不变的，都是所有对应位置的元素相乘后求和就得到特征图上对应元素的结果（如上图所示）。

为了方便展示，上述只使用了一个卷积核，只得到一张特征图。但通常卷积神经网络中每层都会使用多个卷积核，每个卷积核得到的特征图各不相同，这时只要将所有特征图如三通道图像一样堆叠起来即可（如下图所示）。

多卷积核卷积结果

池化层

池化层的主要作用是对卷积所得到的特征图进一步抽象和降维。池化层主要有两种：最大池化与平均池化，其操作如图所示。

池化处理

全连接层

每个全连接层都是一层神经网络。由于卷积和池化最终得到的特征图是一个三维矩阵，需要将该三维矩阵展开成一维向量后再输入到神经网络中，其展开示意图如图所示。

矩阵展开

模型评价及改进

优点

与神经网络比较，卷积网络的优点在于对所提取的特征进行利用而不是对图像的全部像素值进行运用，计算量大幅降低
由于是通过卷积核的移动来对图像的特征进行提取，所以图像中目标的位置可以有所变化，具有较强的泛化能力

缺点

需要较大的数据集来完成对模型的训练
训练过程中容易出现过拟合，网络的层次难以设计

改进方法

使用数据扩增等方法增大训练集
使用残差连接[2]的方法直接设计较深的网络结构，残差连接可以使设置过量的模块失效，同时缓和了过拟合的情况

模型样例

题目

训练得到可以对FashioMNIST数据集进行识别的AlexNet模型。

核心代码及结果

使用PyTorch搭建AlexNet的核心代码[3]如下，具体代码及模型文件请看附件。

net = nn.Sequential(
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Flatten(),
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 37))

模型的结果为：训练集准确率87.8%，测试集准确率88%。

参考文献

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional
neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[2] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the
IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[3] ZHANG A, LIPTON Z C, LI M, et al. Dive into deep learni
n and pattern recognition. 2016: 770-778.