作者
Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba
Bolei Zhou
Abstract
受到NIN 的启发,将global average pooling 用于 定位
1. Introduction
Global average pooling layer 不仅是一个regularizer, 经过一点改变可以识别出discriminative regions。本文提出的方法不仅可以用于定位,而且其深度特征可用于分类/定位/concept discovery。
1.1 related work
Weakly-superviseed object localized
Visualizing CNNs
2. Class Activation Mapping
使用NIN或者googlenet等全卷积结构,接入GAP,使用特征在fc层中得出分类结果,之后我们就可以将得分投影到特征层,得到某个区域的重要性。
下面进行具体描述:
设
fk(x,y)
是unitk在x,y处的激活值。那么对于unit k其GAP结果是
Fk=∑x,yfk(x,y)
(是不是应该再除以像素个数??)对于给某一分类,c,其得分
Sc=∑kwckFk
其中的
wc
也说明着Fk对于类别c的重要性。(这里忽略了bias)
Sc=∑kwckFk=∑x,y∑kwckfk(x,y)=∑x,yMc(x,y)
也就是说
Mc
直接说明了某一位置上的点对于class c的重要性。
也就是说某一位置(x,y)上的点对于class c的重要性是f(x,y)的线形变化,将activation map upsampling 到图片的尺寸及可。图4表现了对于不同class的每个点的重要情况:
3 weakly superivsed object localization
3.1 setup
我们发现,定位能力与spatial resolution有关,成正相关的关系。所以将实验用的AlexNet,VGGnet,googlenet都截断了一块,之后加入3x3的conv stride=1,pad=1,1024层。
3.2 results
分类,分类性能会有损失,其中可以添加卷积层弥补如AlexNet*-GAP
定位:
这里使用了thresholding来分割heatmap,首先将大于CAM最大值20%的区域分割,然后用bounding box 覆盖最大的连接分割的范围。
backpropagation:
K. Simonyan, A. Vedaldi, and A. Zisserman. Deep in-
side convolutional networks: Visualising image classifica-
tion models and saliency maps. International Conference on
Learning Representations Workshop, 2014.
4 Deep Features for Generic Localization
4.1 Fine-gained Recognition
首先将物体定位(上一节的方法),然后提取特征进行训练,其结果提高了4.8个百分点
4.2 Pattern Discovery
使用350张带有文字的图片作为正样本,随机找一些没有的作为负样本,得到了文字的定位功能!
视觉问答:
使用下面的方法和本文的特征可以“理解“问题:
B. Zhou, Y. Tian, S. Sukhbaatar, A. Szlam, and R. Fer-
gus. Simple baseline for visual question answering. arXiv
preprint arXiv:1512.02167, 2015.