关于深度学习CV众多疑问的总结整理

1 不同种类的池化(最大值池化、平均值池化)有什么区别,为什么有时候用这种、有时候用那种?

  • 最大值池化输出各位置的局部最大值,平均值池化输出各位置的局部平均值,全局平均池化输出整个特征图的均值
  • 最大值池化保留了图像中的纹理信息(图像中最显眼的地方),淡化了背景的影响;平均值池化抹去了图像纹理信息,而更凸显了背景的影响;全局平均池化则综合了整个图像各个位置的信息,是一种概要
  • 在网络浅层,一般使用的是最大值池化:因为这时候池化的目的是降低分辨率,保留中重点信息即可,忽略次要信息;图像间最主要的区别就在于纹理、边缘等信息
  • 在网络深层,特征图分辨率较小、并且包含了高阶的语义信息,可以认为信息密度是比较大的。如果用最大值池化,丢掉的信息也很重,所以用平均值池化可以更好的保留所用信息。
  • 在网络末端,常常用全局平均池化来部分代替全连接层。一部分原因同平均值池化,另一部分原因在于这样可以降低参数量、防止过拟合,进一步的分析见问题2

2 为什么全局平均池化(GAP)被广泛用于CNN网络末端?

  • 直观的,GAP可以减小网络参数,毕竟原来只用全连接做网络末端时参数量很大。另外,并且输出的维度将独立于原始输入图像的分辨率,这样可以使网络处理任意尺寸的图像。
  • GAP可以起到防止过拟合的作用:过拟合也就是过分强调某些特征对类别的重要程度,反映在数值上,这些特征经由网络,输出会比较大,若采取平均池化的话,由于会取平均,能够削弱过大的输出,让不同特征对分类都有贡献,达成抗过拟合作用,也就是正则化的作用
  • 网络末端的特征图分辨率小、语义信息丰富,这些信息聚合后的含义也很明确。

3 为什么CNN网络最初一层都要用7x7卷积,而不使用多层3x3卷积,小卷积核不是被证明更有效吗?

这样做不一定对,但是当时GoogLeNet、ResNet都这么做了

  • 大卷积的感受野大,计算量也大;如果我们想在网络中使用一个大卷积,优先考虑的一定是网络浅层,因为通道少、计算量少
  • ???(还没想明白)

4 在很多网络中都引入了以1x1卷积为核心组件的瓶颈层,降低参数量和计算量很好理解,但是为什么模型的性能没有明显降低?

  • 网络中大量的feature_map在设置时存在一定程度的冗余,这从“各个feature_map较为相似”、“去掉一些feature_map后模型性能并未下降”可知
  • 1x1卷积的作用相当于数据降维,类似于PCA、可以提取到feature_map中最重要的信息,因此模型的最终性能并没有明显下降

4 CNN是特别针对图像设计的NN架构,为什么现在会被Transformer在超大规模预训练后超越?

  • CNN在设计时,引入的Inductive Bias是图像特征具有平移不变性和局部性。这对于图像来说非常贴合,但也不尽然。图像中也存在远距离依赖,这些依赖有时也是图像理解的一个重要依据,有时候我们只看局部图像会得出错误的判断。
  • 对于CNN来说,对远距离依赖(或者是大范围信息)的处理时依赖堆叠多层卷积核来实现的,多层卷积核的感受野是逐层加大的
  • 处理远距离依赖正是Transformer的拿手好戏,另外,自注意力机制当然也能处理局部性,毕竟局部依赖也是远距离依赖的一个子集,只是它对局部依赖并没有特殊的偏好。从这一角度上说,Transformer在一定程度上是兼容CNN的,只是没有显式地引入那个Inductive Bias
  • 实验发现,中小规模预训练下CNN效果优于Transformer,而超大规模下Transformer才超越了CNN。我想,这是因为Transformer虽然潜力巨大,但是本身缺乏对图像的重要先验知识(局部性),只有用更多的数据才能让它学到这些知识。中小规模数据下它对局部依赖的理解不足,这拖了他的后腿。而超大规模数据下,没有拖油瓶,对远距依赖更直接的理解的优势才能充分发挥。

5 Transformer中为什么要区分Q和K,感觉从含义上讲它们就是一样的东西啊?另外,在利用注意力来对原始Embedding相加时,为什么使用了额外的V、而不是原始的向量X?

  • 从直观理解上说,Q、K、V职能不同,将它们分开来很自然。将输入记作X,Query代表了一个基于X的一个查询;Key代表了X对外的名片;V代表X的重点信息
  • QK是通过点乘的方式来得到注意力矩阵A的,如果Q == K,得到的矩阵A就是对称的。对于两个item xi和xj来说,它们之间的关系很有可能不是对等的。比如,“我是中国人,我们爱和平”,“我”和“我们”的关系是一种包含关系。换个角度来看,A就相当于一个注意力图(Graph),事实上它应该是有向图,而对称的A只能表示一个无向图,这显然不合适。事实上,从当前QKV的学习结果来看,QK的值也不是很一样。

6 自注意力和全连接网络都是在给不同的输入特征加权,它们有什么本质区别?

  • 对于一组输入X和输出Y来说,全连接可以表示为 y j = ∑ w i x i y_j = \sum w_i x_i yj=wixi, 而自注意力则可以表示为 y j = ∑ w i ( x j , x o t h e r ) x i y_j = \sum w_i(x_j, x_{other})x_i yj=wi(xj,xother)xi 。两个式子中的系数w都可以认为是注意力,只是全连接中的w是常数,而自注意力中w是各个x的函数。
  • ……

7 在进行特征融合时,采用concat和add方式处理特征图有什么异同?

  • concat是一种更通用、直接的特征融合方式,而add相当于一”特殊的concat“聚合,这一点可以由简单的数学推导可知
  • ……
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值