深度学习学习日记_receptive field

经典目标检测和最新目标跟踪都用到了RPN(region proposal network),锚框(anchor)是RPN的基础,感知域receptive field【有人翻译是感受野:我一直不知道为什么翻译成“野”,就叫他感受野吧....】(receptive field, RF)是anchor的基础。 

感受野定义:https://zhuanlan.zhihu.com/p/44106492):卷积神经网络每一层输出的特征图(feature map)上每个像素点在原始图像上映射的区域大小(https://www.jianshu.com/p/9997c6f5c01e

在典型CNN结构中,FC层每个输出节点的值都依赖FC层所有输入,而CONV层每个输出节点的值仅依赖CONV层输入的一个区域,这个区域之外的其他输入值都不会影响输出值,该区域就是感受野。

图中是个微型CNN,来自Inception-v3论文,原图是为了说明一个conv5x5可以用两个conv3x3代替,从下到上称为第1, 2, 3层:

  1. 第2层最左下角的值,是第1层左下红框中3x3区域的值经过卷积,也就是乘加运算计算出来的,第2层最左下角位置的感受野是第1层左下红框区域
  2. 第3层唯一值,是第2层所有3x3区域卷积得到的,第3层唯一位置的感受野是第2层所有3x3区域
  3. 第3层唯一值,是第1层所有5x5区域经过两层卷积得到的,第3层唯一位置的感受野是第1层所有5x5区域

感受野作用:

感受野的值可以用来大致判断每一层的抽象层次:
感受野越大表示其能接触到的原始图像范围就越大,也意味着可能蕴含更为 全局、语义层次更高的特征
感受野越小则表示其所包含的特征越趋向于 局部和细节
辅助网络的设计:
一般任务:
要求感受野越大越好,如图像分类中最后卷积层的感受野要大于输入图像,网络深度越深感受野越大性能越好
目标检测:设置 anchor 要严格对应感受野,anchor 太大或偏离感受野都会严重影响检测性能
语义分割:要求输出像素的感受野足够的大,确保做出决策时没有忽略重要信息,一般也是越深越好
多个小卷积代替一个大卷积层,在 加深网络深度(增强了网络容量和复杂度)的同时减少参数的个数:
小卷积核(如 3×33 \times 33×3)通过多层叠加可取得与大卷积核(如 7×77 \times 77×7)同等规模的感受野
(如果感受野比原图像大,那肯定padding方式是SAME,padding的填充)

感受野计算:(网页计算:https://fomoro.com/research/article/receptive-field-calculator#

https://www.jianshu.com/p/9997c6f5c01e

有效感受野:

NIPS 2016论文Understanding the Effective Receptive Field in Deep Convolutional Neural Networks提出了有效感受野(Effective Receptive Field, ERF)理论,论文发现并不是感受野内所有像素对输出向量的贡献相同,在很多情况下感受野区域内像素的影响分布是高斯,有效感受野仅占理论感受野的一部分,且高斯分布从中心到边缘快速衰减,下图第二个是训练后CNN的典型有效感受野。

这点其实也很好理解,继续回到最初那个微型CNN,我们来分析第1层,下图标出了conv3x3 s1卷积操作对每个输入值的使用次数,用蓝色数字表示,很明显越靠近感受野中心的值被使用次数越多,靠近边缘的值使用次数越少。5x5输入是特殊情况刚好符合高斯分布,3x3输入时所有值的使用次数都是1,大于5x5输入时大部分位于中心区域的值使用次数都是9,边缘衰减到1。每个卷积层都有这种规律,经过多层堆叠,总体感受野就会呈现高斯分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值