一、摘要部分
摘要部分是说他们针对弱监督情况下检测或分类任务提出了级联的网络架构,他们提出了两种模型结构,第一种结构分为两步,还有有一种结构分为三步,比第一种中间多了目标分割。实验是在PASCAKL VOC2007,2010,2012和ILSCRC 2013、2014上做的。
二、两步结构
两步分别是定位和多实例学习,这两步共享前面的卷积网络。
1、定位
通过一个带有全局池化层的去全卷积网络,产生关注映射图(激活响应图)(全局池化层是这篇《 Learning deep features for discriminative localization》论文的)。候选框原文在实验部分说是用选择搜索算法产生的
2、多实例学习
这部分主要作用是是从所有候选框中对每一类选出最好的候选框(得分最高的),这部分损失函数是
X是一张图的候选框集合,I是一张图片,fcj是第j个候选框属于c类的得分,max(fcj)我的理解是c类最好的候选框的得分。pc(x,l)是概率。从损失函数可以看出它每一类物体最多只能识别出一个目标。严格来说这个框架应该目标定位,而不是目标检测。
整体损失函数如下:
Lgap是全局池化的损失函数,原文中说的是C类逻辑回归的和。
三、三步结构
三步结构是在两步结构的中间加了一步目标分割,具体怎么分割我不是很清楚,原文中讲的也不是很明白(没看懂),分割是按照这篇What’s the Point: Semantic Segmentation with Point Supervision.论文来的。
分割的损失函数:
总体的损失函数: