深度学习：第三章：卷积神经网络

唐风绸繆

已于 2024-04-15 21:43:12 修改

阅读量242

点赞数 4

分类专栏：深度学习文章标签：深度学习 cnn 人工智能神经网络机器学习

于 2024-04-15 21:31:56 首次发布

本文链接：https://blog.csdn.net/qq_45738761/article/details/137796453

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

深度学习：第一章：机器学习基础-CSDN博客

深度学习：第二章人工神经网络-CSDN博客

深度学习：第三章：卷积神经网络-CSDN博客

深度学习：第四章：循环神经网络RNN和LSTM-CSDN博客

深度学习：第五章目标检测-CSDN博客

深度学习：第六章：生成对抗网络GAN-CSDN博客

以卷积结构为主搭建的深度神经网络。主要用于图像识别、分类，目标检测等。将图片作为网络的输入数据，自动提取特征。通过全连接层，进行图像分类；对图像的变形（比如平移、比例缩放、倾斜）等具有高度不变性。
神经网络的层级结构：

输入层：
im2col：一种矩阵转换方式
将数据转换成向量，如图4*4的数据
通过3*3的im2col转换成了四列向量
这里先往后看
此时输入的 channels 为3。而卷积核中的 in_channels 与需要进行卷积操作的数据channels一致。由于只有一个卷积核，最终得到的结果是 4x4x1，out_channels为1
在实际应用中，都会使用多个卷积核。这里如果再加一个卷积核，就会得到 4x4x2 的结果。out_channels为2

卷积：
卷积神经网络中的卷积，就是对图像和滤波矩阵（卷积核矩阵）做內积

卷积的过程是不断产生新的Feature Map（特征图），Feature Map是卷积过滤器的输出结果
步长stride：卷积核在矩阵上一次移动的步幅，既是从左到右、也是从上到下
Stride的作用：是成倍缩小尺寸，比如步幅为2，输出就是输入的1/2；步幅为3，输出就是输入的1/3

填充padding：
在矩阵的边界上填充一些值，以增加矩阵的大小，通常都用0来进行填充的通过填充的方法，当卷积核扫描输入数据时，它能延伸到边缘以外的伪像素，从而使输出和输入size相同。

常用的两种padding：
（1）valid padding：不进行任何处理，只使用原始图像，不允许卷积核超出原始图像边界
（2）same padding：进行填充，允许卷积核超出原始图像边界，并使得卷积后结果的大小与原来的一致

输出图片（feature map）的尺寸

卷积层的作用
（这里对内容重新标红）
每一种卷积核都对应一种特征提取，它在二维输入数据上扫描，将计算结果汇总输出
例：
以字母X为例，可以提取出一些重要特，如“对角线”，如下图所示∶
假如以像素值"1"代表白色，像素值"-1"代表黑色：根据卷积的计算方式，第一块特征匹配后的卷积计算如下，结果为1

通过每一个feature（特征）的卷积操作，会得到一个新的二维数组，称之为feature map。其中的值，越接近1表示对应位置和feature的匹配越完整，越是接近-1，表示对应位置和feature的反面匹配越完整，而值接近0的表示对应位置没有任何匹配或者说没有关联

Prewitt算子：实现边缘检测
利用像素点的上下左右临点灰度差检测边缘。
可以去掉伪边缘，对噪声有平滑作用。
对图像进行差分来近似对图像的某个部分求一阶导数。
Sobel算子：边缘检测且检测水平或者垂直方向的梯度
Sobel算子则是Prewitt算子的改进版，对中间的元素适当进行了加权，Sobel算子之于Prewitt算子类似于高斯滤波之于均值滤波
Roberts算子：
一种简单的边缘检测算子，用对角线方向相邻两像素之差近似梯度检测边缘

均值滤波和高斯滤波：
滤波器中元素之和为1，输出亮度与输入基本一致。主要用于图像模糊/平滑处理、消除噪点。核越大，模糊程度越大

锐化卷积核：
主要作用就是对图片进行锐化操作，让图像的边缘更加锐利。图像的边缘往往就是变化较大的地方，也就是图像的高频部分，因此锐化卷积核就是一种高通滤波器

为什么卷积核的大小都是奇数？
（1）更容易padding：如果想让一次卷积运算之后矩阵大小不变，则应将padding设为(k-1)/2，如果k是偶数，那么padding取值就不是整数了
（2）更容易找到卷积锚点：进行卷积操作时一般会以卷积核模块的一个位置为基准进行滑动，这个基准通常就是卷积核模块的中心。若卷积核是偶数，则无法确定中心
滤波器：若干卷积核的集合（2d卷积核时：滤波器=卷积核。总之这个概念比较争议）

感受野
每个神经元只与输入数据的一个局部区域连接，这个区域大小称为感受野
绿色的运算，是一个神经元的任务。也就是说一张特征图需要多个神经元

设s=1,p=0。三层3*3的卷积核卷积操作之后的感受野是7，一层7*7也是7为什么选择前者？答：很明显，堆叠小的卷积核所需的参数更少一些，并且卷积过程越多，特征提取也会越细致，加入的非线性变换也随着增多，还不会增大权重参数个数
感受野计算：

例：

权值共享：
给一张输入图片，用一个filter去扫这张图，filter里面的数就叫权重，这张图每个位置是被同样的filter扫的，所以这张图用到的所有神经元的权重是一样的

激励层（激活函数）：
把卷积层输出结果做非线性映射
CNN尽量不要用sigmoid，计算量太大！！！
优先考虑RELU，计算少速度快；其次考虑Leaky ReLU或者Maxout

池化层：
夹在连续的卷积层中间；压缩数据和参数的量，减小过拟合；池化层可以有效的缩小参数矩阵的尺寸；减少最后连接层的参数数量
池化层作用

最大池化，平均池化

卷积神经网络CNN优缺点

空洞卷积/扩张卷积/膨胀卷积
与普通卷积的相同点在于，卷积核的大小是一样的，在神经网络中即参数数量不变，区别在于扩张卷积具有更大的感受野
可以捕获多尺度上下文信息
降采样也可以增加感受野，但是会降低空间分辨率（扩张卷积则没有这个缺点）

上采样：（upsampling）：主要目的是放大原图像
反卷积/转置卷积：卷积的逆过程
BatchNorm层：
通过一定的规范化手段，将每层网络的任意神经元输入值分布强行拉回标准正态分布（均值0方差1）。减少了人为对参数的选择，减少对学习率的要求，减少过拟合

唐风绸繆

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
深度学习：第三章：卷积神经网络

其中的值，越接近1表示对应位置和feature的匹配越完整，越是接近-1，表示对应位置和feature的反面匹配越完整，而值接近0的表示对应位置没有任何匹配或者说没有关联。在矩阵的边界上填充一些值，以增加矩阵的大小，通常都用0来进行填充的通过填充的方法，当卷积核扫描输入数据时，它能延伸到边缘以外的伪像素，从而使输出和输入size相同。给一张输入图片，用一个filter去扫这张图，filter里面的数就叫权重，这张图每个位置是被同样的filter扫的，所以这张图用到的所有神经元的权重是一样的。
复制链接

扫一扫