文章目录
1 摘要
针对FCN的实际感受野比理论感受野小很多的问题——按道理VGG+FCN的fc7的感受野是404×404,可实际上的FCN的fc7的感受野却并没有这么大,本文提出一种ParseNet网络,通过融合全局信息来弥补实际感受野的不足。
2 亮点
2.1 全局池化层
作者发现,使用了FCN的VGG网络在fc7的感受野应当是404×404的,为了测试fc7实际的感受野的大小,作者对原图滑动了一个窗口,将得到图叠加噪音信息,查看fc7的响应,这样就可以看到fc7的实际感受野了,如下图:
(a)为原始图像,(b)为特征相应的热度图,(c)为滑动窗口以后fc7能观察到的理论感受野,(d)为fc7的实际的感受野。可以看到实际感受野仅仅为原图的1/4不到,比实际的感受野小了很多,所以在进行特征提取的时候有可能就削弱了语义的全局联系,而有一些文章中使用的是CRF对结果进行后处理,虽然这样也能获得不错的效果,但是CRF等后处理方式计算复杂,会消耗很多计算资源。为了解决这个问题,作者提出一个