本文主要工作:
- 本文结合forward和backward的特征,利用弱监督的方式进行了显著性检测(这里弱监督的意思是使用预训练好的分类模型,不需要再训练显著性数据即可得到saliency map,即通过反向传播的方式)
- 在计算saliency map时,相比之前工作中的back propagation(BP)和guided back propagation(GBP)方法,进行了改进,得到partially guided propagation(PGB)方法
计算saliency map相关工作:
框架:
由图可见,思路是利用S(td)(top-down显著性图)结合S(bu)(bottom-up显著性图)取得更好的效果,所谓bottom-up指的是利用图像的低阶特征比如边缘、局部统计特征得到的saliency map,top-down指的是结合语义信息得到的saliency map,而神经网络具有丰富的语义信息,这里是通过神经网络提取top-down saliency map,并且S(td)的提取融合了前向和后向的信息,也组合了多层信息。
具体如下:
网络配置:
这里采用的网络是VGG16,提取saliency map时,融合了多层信息,具体使用的是后面四个池化层的输出(虽然原文上说的是含有全连接层,但全连接层空间信息丢失,且从上面的图上也可以看出使用的就是后面四个池化层的输出)
The sub-models used for obtaining salient cues from forward and backward process are three convolution layers (see Fig.2): Conv3, Conv4, Conv5, and one fully connected layer (fc).
处理思路:
从输出开始对各层输出图像进行求导(注意:不是对神经元求导),得到各层的BW(layer_n),同样,前向传播的时候各层的FW(layer_n)是知道的,则各层的saliency map如下:
要注意的是,输出是得分,从得分开始往回求导,在BP方法或者GBP方法中是只处理某一类得分,即其他类的得分置0往回求导,而本文中是保留各类的得分,这样可以得到saliency map中不止一个物体的信息,也避免了多次对不同物体计算saliency map,那为什么往回求导可以代表saliency map,具体可以参考BP论文。
另外在反向求导的过程中,权重为负的部分直接归0,所以叫partially guided propagation。
这里结合了前向传播的信息和反向传播的信息(我的感觉是,反向传播的信息又是从高层来的,相当于结合了层与层之间的信息,这样的处理在一篇显著目标检测的论文中也有见到,现在感觉好多论文感觉都是层间信息融合上做处理),注意,由于每一层的输出和原图大小不一样,我们要的是和原图大小一样的saliency map,从公式3可以看出来,处理方式是逐元素相乘并在特征维度上相加,在这之前,把FW(layer_n)和BW(layer_n) resize到原图大小。
S(td)的得到则组合了各层的信息,这样即得到了top-down的saliency map
W(n)是权重,根据论文是依据经验在{1,5,10}中选取
M是一个中心偏置,根据距离图像中心的距离得到(像素上的值为1-d(到中心点距离)),取值范围规整到[0.25,1]
bottom-up的信息:
本文采用的就是一个别人提出来的计算bottom-up saliency map的方法
计算S(bu)涉及的论文:论文链接(还没看)
最后,对bottom-up和top-down的信息进行整合并进行规范化:
之所以这样做的原因是希望即使S(bu)为0,也不影响S(td)
实验结果:
(c)是本文提出的方法,(d)是本文方法不带bottom-up信息
其中fg是fully guided propagation用来和本文提出的PGB做对比,可见PGB使得结果更好;
尽管在绿色的数据集上,本文方法不是最好,但可以看出本文方法在不同数据集上稳定性更强(尽管只有两个数据集)。
总结:
- 本文提出一种PGB的反向求导方式,用以得到saliency map;
- 本文提出一种融合forward 和 backward的S(td)显著性提取方法,并验证了结合S(bu)能带来性能上的改善。
参考文献:
链接:本文论文