OpenMMLab实战营笔记打卡-2_4*4*3经过2*2*3的运算之后图像大小为多少-CSDN博客

本文链接：https://blog.csdn.net/python_innocent/article/details/128868985

本文探讨了卷积神经网络中的参数量和运算量计算，介绍了GoogleNet、ResNet和可分离卷积等方法如何减少模型复杂性。同时，提到了Transformer模型及其在注意力机制上的创新，以及数据增强在提升模型性能中的作用。

摘要由CSDN通过智能技术生成

图像分类与mmcls

参数量与运算量

参数量

卷积层的参数量包括：卷积核+偏置值。

以下图为例，其计算公式为：

$c\times \left (c_{o}\times k\times k +1\right )=cc_{o}k^{2}+c$

其中，c为输出通道数，k为卷积核尺寸，co为原始通道数。

运算量

卷积后的尺寸公式，其中h为原图像大小，k为卷积核尺寸，p为padding，s为步长。

$\frac{h-k-2p}{s}+1= h^{*}$

以上图为例，大小为6×6×3的原始图像，输出通道为2，即有2个卷积核进行卷积，卷积核尺寸为3×3。卷积是一个通道的所有卷积核分别与原图像对应通道的原图进行卷积计算，以黄色卷积核为例，原图中最终得到的一个像素，是由红色中的3×3个像素与卷积核共进行了3×3个运算后，再与绿色、蓝色相同的运算结果相加，再加一个偏置项b，最终获得。期间其乘加次数为3×3×3。又由于输出通道尺寸为4×4，总输出为2通道，所以总乘加次数为4×4×2×（3×3×3）,公式如下：

$H\times W\times C\times (C_{0}\times k\times k)=HWCC_{0}k^{2}$

其中，HW输出图像尺寸，C为输出通道数，C0为原通道数，k为卷积核尺寸。

小总结

对比运算量与乘法量公式，可得其二者均正比于通道数的平方于卷积核尺寸的平方，在考虑缩小模型的尺寸与运算量时，可着重优先考虑其二者。

应用

1.GoogleNet：并不是所有的特征都需要同样大的感受野，在同一层中混合使用不同尺寸的特征可以减少参数量。相比于传统的统一尺寸的卷积核大大减小了运算量与参数量。

2.ResNet：将空间维度与特征通道的维度进行分解，将原先运算参数量大的操作分多个次数来运算。

3.可分离卷积

将常规的卷积分解为逐层卷积和逐点卷积，降低参数量和计算量。

在上图示例中，使用3个单通道的3×3卷积核，分别与原图的三个通道进行卷积，此时相比于常规卷积，缺少不同通道之间的信息。再用32个1×1×3的卷积核对这三个进行卷积，弥补了通道之间的信息。大大减少了参数量与计算量。

其公式参数：Dk为卷积核尺寸，Dg为输出图像尺寸，N为输出通道数，M为原始通道数。

基于可分离卷积主要有MobileNet等模型。

Transformer

最早在nlp中发家，卷积主要的计算是用一个参数，对前一个特征进行加权求和，得到后一层的特征，具体表现为对应位置相乘权重再相加。对应位置的权重越大（卷积核对应数越大）则说明对应位置的特征越重要。特征对于输入是无关的，无论输入什么图片，都是用同样的卷积核进行卷积。并且也只能看到局部的特征（卷积核尺寸为3×3，则一次卷积只能观察3×3的视野）

注意力机制里面，特征是一个输入的函数，不同图像输入进来，特征如何去组合与输入的是什么相关。且不限于领域，整个图片谁有用就拿过来用。如下图所示：