深度学习：卷积神经网络，卷积，激活函数，池化，卷积问题

最新推荐文章于 2025-04-05 13:00:00 发布

置顶

work_coder

最新推荐文章于 2025-04-05 13:00:00 发布

阅读量3.6w

点赞数 12

分类专栏：深度学习概要机器学习概要

本文链接：https://blog.csdn.net/weixin_41108334/article/details/83064632

版权

本文详细介绍了卷积神经网络（CNN）的组成部分，包括卷积层、激活函数（如ReLU、Sigmoid、Tanh）和池化层。强调了ReLU在避免梯度消失和提高计算效率方面的优势，以及池化层在降低计算复杂度和保持特征不变性上的作用。同时，讨论了卷积核大小、分组卷积、Inception结构和1x1卷积等设计决策对模型性能的影响。最后，提出了深度网络中的一些挑战，如ResNet的残差连接和可变形卷积，以及未来研究方向的思考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层

https://blog.csdn.net/yjl9122/article/details/70198357?utm_source=blogxgwz3

一、卷积层

特征提取

输入图像是32*32*3，3是它的深度（即R、G、B），卷积层是一个5*5*3的filter(感受野),这里注意：感受野的深度必须和输入图像的深度相同。通过一个filter与输入图像的卷积可以得到一个28*28*1的特征图，上图是用了两个filter得到了两个特征图；

我们通常会使用多层卷积层来得到更深层次的特征图。如下：

关于卷积的过程图解如下：

两个神经元，即depth=2，意味着有两个滤波器。
数据窗口每次移动两个步长取3*3的局部数据，即stride=2。
zero-padding=1。
然后分别以两个滤波器filter为轴滑动数组进行卷积计算，得到两组不同的结果。

左边是输入（7*7*3中，7*7代表图像的像素/长宽，3代表R、G、B 三个颜色通道）
中间部分是两个不同的滤波器Filter w0、Filter w1
最右边则是两个不同的输出
输入图像和filter的对应位置元素相乘再求和，最后再加上b,得到特征图。如图中所示，filter w0的第一层深度和输入图像的蓝色方框中对应元素相乘再求和得到1，其他两个深度得到-1，0，则有1-1+0+1=1即图中右边特征图的第一个元素1.，卷积过后输入图像的蓝色方框再滑动，stride（步长）=2，如下：
如上图，完成卷积，得到一个3*3*1的特征图；在这里还要注意一点，即zero pad项，即为图像加上一个边界，边界元素均为0.（对原输入无影响）一般有

F=3 => zero pad with 1
F=5 => zero pad with 2
F=7=> zero pad with 3,边界宽度是一个经验值，加上zero pad这一项是为了使输入图像和卷积后的特征图具有相同的维度，如：

输入为5*5*3，filter为3*3*3，在zero pad 为1，则加上zero pad后的输入图像为7*7*3，则卷积后的特征图大小为5*5*1（（7-3）/1+1），与输入图像一样；

如上图，参数个数就是卷积核的大小 K *filter为3*3*3 也有 filter 是3*3*1 的卷积核
而关于特征图的大小计算方法具体如下：

卷积层还有一个特性就是“权值共享”原则。如下图：

所谓的权值共享就是说，给一张输入图片，用一个filter去扫这张图，filter里面的数就叫权重，这张图每个位置就是被同样的filter扫的，所以权重是一样的，也就是共享。尽量减少参数个数。

二、激活函数

如果输入变化很小，导致输出结构发生截然不同的结果，这种情况是我们不希望看到的，为了模拟更细微的变化，输入和输出数值不只是0到1，可以是0和1之间的任何数，

激活函数是用来加入非线性因素的，因为线性模型的表达力不够
这句话字面的意思很容易理解，但是在具体处理图像的时候是什么情况呢？我们知道在神经网络中，对于图像，我们主要采用了卷积的方式来处理，也就是对每个像素点赋予一个权值，这个操作显然就是线性的。但是对于我们样本来说，不一定是线性可分的，为了解决这个问题，我们可以进行线性变化，或者我们引入非线性因素，解决线性模型所不能解决的问题。
这里插一句，来比较一下上面的那些激活函数，因为神经网络的数学基础是处处可微的，所以选取的激活函数要能保证数据输入与输出也是可微的，运算特征是不断进行循环计算，所以在每代循环过程中，每个神经元的值也是在不断变化的。
这就导致了tanh特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果显示出来，但有是，在特征相差比较复杂或是相差不是特别大时，需要更细微的分类判断的时候，sigmoid效果就好了。
还有一个东西要注意，sigmoid 和 tanh作为激活函数的话，一定要注意一定要对 input 进行归一话，否则激活后的值都会进入平坦区，使隐层的输出全部趋同，但是 ReLU 并不需要输入归一化来防止它们达到饱和。

构建稀疏矩阵，也就是稀疏性，这个特性可以去除数据中的冗余，最大可能保留数据的特征，也就是大多数为0的稀疏矩阵来表示。其实这个特性主要是对于Relu，它就是取的max(0,x)，因为神经网络是不断反复计算，实际上变成了它在尝试不断试探如何用一个大多数为0的矩阵来尝试表达数据特征，结果因为稀疏特性的存在，反而这种方法变得运算得又快效果又好了。所以我们可以看到目前大部分的卷积神经网络中，基本上都是采用了ReLU 函数。

激活函数应该具有的性质：

1.为什么要使用非线性激活函数？

线性可分的情况下：逻辑回归和线性回归，无论是闭解形式还是凸优化都能高度拟合，但是线性不可分的情况下（XOR异或函数），需要非线性对换数据的分布进行重新映射。对神经网络我们在神经网络中，对每一层线性变换后叠加一个非线性激活函数，以避免多层网络等效于单层线性函数，从而获得更大的学习与拟合能力。

使用激活函数的目的是为了向网络中加入非线性因素；加强网络的表示能力，解决线性模型无法解决的问题