关于深度学习CV众多疑问的总结整理

最新推荐文章于 2022-05-18 10:41:34 发布

奔跑吧蚂蚁呀

最新推荐文章于 2022-05-18 10:41:34 发布

阅读量749

点赞数

分类专栏：机器学习文章标签：计算机视觉深度学习机器学习

本文链接：https://blog.csdn.net/qq_40488628/article/details/112670023

版权

10 篇文章 0 订阅

订阅专栏

最大值池化输出各位置的局部最大值，平均值池化输出各位置的局部平均值，全局平均池化输出整个特征图的均值
最大值池化保留了图像中的纹理信息（图像中最显眼的地方），淡化了背景的影响；平均值池化抹去了图像纹理信息，而更凸显了背景的影响；全局平均池化则综合了整个图像各个位置的信息，是一种概要
在网络浅层，一般使用的是最大值池化：因为这时候池化的目的是降低分辨率，保留中重点信息即可，忽略次要信息；图像间最主要的区别就在于纹理、边缘等信息
在网络深层，特征图分辨率较小、并且包含了高阶的语义信息，可以认为信息密度是比较大的。如果用最大值池化，丢掉的信息也很重，所以用平均值池化可以更好的保留所用信息。
在网络末端，常常用全局平均池化来部分代替全连接层。一部分原因同平均值池化，另一部分原因在于这样可以降低参数量、防止过拟合，进一步的分析见问题2

直观的，GAP可以减小网络参数，毕竟原来只用全连接做网络末端时参数量很大。另外，并且输出的维度将独立于原始输入图像的分辨率，这样可以使网络处理任意尺寸的图像。
GAP可以起到防止过拟合的作用：过拟合也就是过分强调某些特征对类别的重要程度，反映在数值上，这些特征经由网络，输出会比较大，若采取平均池化的话，由于会取平均，能够削弱过大的输出，让不同特征对分类都有贡献，达成抗过拟合作用，也就是正则化的作用
网络末端的特征图分辨率小、语义信息丰富，这些信息聚合后的含义也很明确。

这样做不一定对，但是当时GoogLeNet、ResNet都这么做了

网络中大量的feature_map在设置时存在一定程度的冗余，这从“各个feature_map较为相似”、“去掉一些feature_map后模型性能并未下降”可知
1x1卷积的作用相当于数据降维，类似于PCA、可以提取到feature_map中最重要的信息，因此模型的最终性能并没有明显下降

CNN在设计时，引入的Inductive Bias是图像特征具有平移不变性和局部性。这对于图像来说非常贴合，但也不尽然。图像中也存在远距离依赖，这些依赖有时也是图像理解的一个重要依据，有时候我们只看局部图像会得出错误的判断。
对于CNN来说，对远距离依赖（或者是大范围信息）的处理时依赖堆叠多层卷积核来实现的，多层卷积核的感受野是逐层加大的
处理远距离依赖正是Transformer的拿手好戏，另外，自注意力机制当然也能处理局部性，毕竟局部依赖也是远距离依赖的一个子集，只是它对局部依赖并没有特殊的偏好。从这一角度上说，Transformer在一定程度上是兼容CNN的，只是没有显式地引入那个Inductive Bias
实验发现，中小规模预训练下CNN效果优于Transformer，而超大规模下Transformer才超越了CNN。我想，这是因为Transformer虽然潜力巨大，但是本身缺乏对图像的重要先验知识（局部性），只有用更多的数据才能让它学到这些知识。中小规模数据下它对局部依赖的理解不足，这拖了他的后腿。而超大规模数据下，没有拖油瓶，对远距依赖更直接的理解的优势才能充分发挥。

从直观理解上说，Q、K、V职能不同，将它们分开来很自然。将输入记作X，Query代表了一个基于X的一个查询；Key代表了X对外的名片；V代表X的重点信息
QK是通过点乘的方式来得到注意力矩阵A的，如果Q == K，得到的矩阵A就是对称的。对于两个item xi和xj来说，它们之间的关系很有可能不是对等的。比如，“我是中国人，我们爱和平”，“我”和“我们”的关系是一种包含关系。换个角度来看，A就相当于一个注意力图（Graph），事实上它应该是有向图，而对称的A只能表示一个无向图，这显然不合适。事实上，从当前QKV的学习结果来看，QK的值也不是很一样。