《深度学习[Pytorch]》整理02 卷积神经网络

最新推荐文章于 2022-11-06 09:56:34 发布

　木夕敢敢

最新推荐文章于 2022-11-06 09:56:34 发布

阅读量610

点赞数

分类专栏： PyTorch深度学习文章标签：卷积神经网络 pytorch

本文链接：https://blog.csdn.net/Lilo_/article/details/114822617

版权

PyTorch深度学习专栏收录该内容

12 篇文章 2 订阅

订阅专栏

卷积神经网络(Convolutional Neural Network, CNN)

用全连接前馈网络来处理图像存在的问题：
✓ 参数太多
如果输入图像大小为100×100×3，在全连接前馈网络中，第一个隐藏层的每个神经元到输入层都有30,000个互相独立的连接，每个连接都对应一个权重参数。随着隐藏层神经元数量的增多，参数的规模也会急剧增加。这会导致整个神经网络的训练效率非常低，也很容易出现过拟合。
✓ 难提取局部不变性特征
自然图像中的物体都具有局部不变性特征，比如尺度缩放、平移、旋转等操作不影响其语义信息。而全连接前馈网络很难提取这些局部不变性特征，一般需要进行数据增强来提高性能。

卷积神经网络(Convolutional Neural Network, CNN)是受生物学上感受野机制的启发而提出的。卷积神经网络一般是由卷积层、池化层和全连接层交叉堆叠而成的前馈神经网络。全连接层一般在卷积网络的最顶层。卷积神经网络有三个结构上的特性：局部连接、权重共享以及池化。这些特性使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性。和前馈神经网络相比，卷积神经网络的参数少。

感受野(Receptive Field)机制主要是指听觉、视觉等神经系统中一些神经元的特性，即神经元只接受其所支配的刺激区域内的信号。

在这里插入图片描述

一、卷积神经网络的一般结构框架

在这里插入图片描述

（一）卷积层：提取特征

1. 卷积核

卷积核Kernel也叫滤波器filter，代表图像的某种特征；也称为神经元。比如垂直边缘、水平边缘、颜色、纹理等等，这些所有神经元加起来就好比就是整张图像的特征提取器集合。卷积核越深越能检测图像更高级别、更高层次、更复杂、更抽象、更泛化的特征。

滤波器的滑动步长S和零填充P

• 步长（ Stride）是指卷积核在滑动时的时间间隔。
• 零填充（ Zero Padding）是在输入向量两端进行补零。

2. 卷积运算与互相关运算

在机器学习和图像处理领域，卷积的主要功能是在一个图像（或某种特征）上滑动一个卷积核（即滤波器），通过卷积操作得到一组新的特征。在计算卷积的过程中，需要进行卷积核翻转。在具体实现上，一般会以互相关操作来代替卷积，从而会减少一些不必要的操作或开销。
在神经网络中使用卷积是为了进行特征抽取，卷积核是否进行翻转和其特征抽取的能力无关。特别是当卷积核是可学习的参数时，卷积和互相关在能力上是等价的。
在这里插入图片描述
两个公式相比较可知，互相关和卷积的区别仅仅在于卷积核是否进行翻转。因此互相关也可以称为不翻转卷积。

卷积运算

一维卷积

一维卷积经常用在信号处理中，用于计算信号的延迟累积。

时刻𝑡 收到的信号𝑦𝑡 为当前时刻产生的信息和以前时刻延迟信息的叠加。（仍然没懂是怎么计算的–）

一维卷积的结果按输出长度不同可以分为三类：
• 窄卷积：步长 𝑇 = 1 ，两端不补零 𝑃 = 0 ，卷积后输出长度为 𝑀 − 𝐾 + 1
• 宽卷积：步长 𝑇 = 1 ，两端补零 𝑃 = 𝐾 − 1 ，卷积后输出长度 𝑀 + 𝐾 − 1
• 等宽卷积：步长 𝑇 = 1 ，两端补零 𝑃 =(𝐾 − 1)/2 ，卷积后输出长度 𝑀
在早期的文献中，卷积一般默认为窄卷积；而目前的文献中，卷积一般默认为等宽卷积。

二维卷积

 在图像处理中，卷积经常作为特征提取的有效方法。
 在图像处理中常用的均值滤波（Mean Filter）就是一种二维卷积，将当前位置的像素值设为滤波器窗口中所有像素的平均值。
在这里插入图片描述

（二）池化层：降维、防止过拟合

池化层（Pooling Layer）也叫子采样层（Subsampling Layer），其作用是进行特征选择，降低特征数量，从而减少参数数量。
池化（Pooling）是指对每个区域进行下采样（Down Sampling）得到一个值，作为这个区域的概括。
通过池化，可以更好的获取平移不变性以及得到更高的计算效率（减少了神经元数）。

1. 最大池化和平均池化

平均池化：主要用来抑制邻域值之间差别过大，造成的方差过大。如，输入（2,10），通过均值池化后是（6），对于输入的整体信息保存的很好。• 在计算机视觉中：对背景的保留效果好！
最大池化：能够抑制网络参数误差造成的估计均值偏移的现象。如，输入（1,5,3），最大池化后是（5），假如输入中的参数1，有误差，变为了1.5，这时输入是（1.5,5,3），最大池化后结果还是（5） • 在计算机视觉中：对纹理的提取较好！

（三）全连接层：输出结果

图像特征图的“分布式特征表示”映射到样本标记空间。在整个卷积神经网络中起到“分类器”的作用。
通过Softmax函数将多个标量映射为一个概率分布，输出分类结果的置信度。

二、卷积神经网络的应用场景

以（多维）数组形式出现的信号
局部相关性强的信号
特征可以出现在任何位置的信号
物体平移和变形不变的信号
卷积神经网络
一维卷积网络：循序信号，文本
• 文本、音乐、音频、演讲、时间序列
二维卷积网络：图像，时频表示（语音和音频）
• 目标检测、定位、识别
三维卷积网络：视频，体积图像，断层扫描图像
• 视频识别/理解
• 生物医学图像分析
• 高光谱图像分析