论文笔记 | Learning Deep Features for Discriminative Localization

最新推荐文章于 2025-04-17 16:52:34 发布

bea_tree

最新推荐文章于 2025-04-17 16:52:34 发布

阅读量6.3k

点赞数 1

本文链接：https://blog.csdn.net/bea_tree/article/details/51824217

版权

ConvNets 专栏收录该内容

39 篇文章

订阅专栏

作者

Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba
这里写图片描述
Bolei Zhou

Abstract

受到NIN 的启发，将global average pooling 用于定位

1. Introduction

Global average pooling layer 不仅是一个regularizer，经过一点改变可以识别出discriminative regions。本文提出的方法不仅可以用于定位，而且其深度特征可用于分类/定位/concept discovery。

Weakly-superviseed object localized
Visualizing CNNs

2. Class Activation Mapping

这里写图片描述
使用NIN或者googlenet等全卷积结构，接入GAP，使用特征在fc层中得出分类结果，之后我们就可以将得分投影到特征层，得到某个区域的重要性。
下面进行具体描述：
设 $f_k(x,y)$ 是unitk在x，y处的激活值。那么对于unit k其GAP结果是 $F_k=\sum_{x,y}f_k(x,y)$ （是不是应该再除以像素个数？？）对于给某一分类，c，其得分 $S_c=\sum_kw_k^cF_k$ 其中的 $w_c$ 也说明着Fk对于类别c的重要性。（这里忽略了bias） $S_c=\sum_kw_k^cF_k=\sum_{x,y} \sum_{k}w_k^cf_{k}(x,y)=\sum_{x,y}M_c(x,y)$ 也就是说 $M_c$ 直接说明了某一位置上的点对于class c的重要性。
也就是说某一位置（x，y）上的点对于class c的重要性是f（x,y）的线形变化，将activation map upsampling 到图片的尺寸及可。图4表现了对于不同class的每个点的重要情况：
这里写图片描述

3 weakly superivsed object localization

3.1 setup

我们发现，定位能力与spatial resolution有关，成正相关的关系。所以将实验用的AlexNet，VGGnet，googlenet都截断了一块，之后加入3x3的conv stride=1，pad=1，1024层。

3.2 results

分类，分类性能会有损失，其中可以添加卷积层弥补如AlexNet*-GAP
这里写图片描述
定位：

这里使用了thresholding来分割heatmap，首先将大于CAM最大值20%的区域分割，然后用bounding box 覆盖最大的连接分割的范围。
backpropagation：

K. Simonyan, A. Vedaldi, and A. Zisserman. Deep in-
side convolutional networks: Visualising image classifica-
tion models and saliency maps. International Conference on
Learning Representations Workshop, 2014.

4 Deep Features for Generic Localization

4.1 Fine-gained Recognition

首先将物体定位（上一节的方法），然后提取特征进行训练，其结果提高了4.8个百分点
这里写图片描述

4.2 Pattern Discovery

使用350张带有文字的图片作为正样本，随机找一些没有的作为负样本，得到了文字的定位功能！
这里写图片描述
视觉问答：
使用下面的方法和本文的特征可以“理解“问题：

B. Zhou, Y. Tian, S. Sukhbaatar, A. Szlam, and R. Fer-
gus. Simple baseline for visual question answering. arXiv
preprint arXiv:1512.02167, 2015.

这里写图片描述

conclusion

作者
Abstract
Introduction
- 1 related work
Class Activation Mapping
weakly superivsed object localization
- 1 setup
- 2 results
Deep Features for Generic Localization
- 1 Fine-gained Recognition
- 2 Pattern Discovery
conclusion