Weakly Supervised Complementary Parts Models for Fine-Grained Image Classification

本文介绍了2019年CVPR会议上的一篇论文,研究如何利用弱监督学习构建互补局部模型,以解决深度神经网络在细粒度图像分类中忽视非识别性部分的问题。通过弱监督对象检测和实例分割提取对象实例,然后建立双向LSTM网络融合互补部分信息。方法包括基于MASK R-CNN和CRF的分割,以及迭代实例细化,以提高分类性能。
摘要由CSDN通过智能技术生成

这是2019年CVPR的一篇文章,作者来自香港大学和Deepwise AI Lab,该文章是关于细粒度图像分类的

解决的问题

用图像级标签训练的深度神经网络只倾向于聚焦于discriminative parts(有识别力的部分),而忽略了其他object parts。
方法: 我们以弱监督的方式建立互补局部模型(complementary parts model),以检索由卷积神经网络检测到的被domain object parts抑制的信息。
(1)采用基于MASK R-CNN和CRF的分割方法,通过弱监督对象检测和实例分割,提取rough object instances。
(2)估计并搜索每个对象实例的最佳part model
(3)构建双向长短期记忆(LSTM)网络,将这些互补部分的part信息融合并编码成图像分类的综合特征

Weakly Supervised Object Detection and Instance Segmentation

Coarse Object Mask Initialization. 给定一个图像 I I I和它的标签 c c c,分类网络的最后的卷积层的特征图被标记为 ϕ ( I , θ ) ∈ R K × h × w \phi(I,\theta)\in \R^{K\times h\times w} ϕ(I,θ)RK×h×w,其中 θ \theta θ代表网络 ϕ \phi ϕ的参数, K K K代表通道数, h , w h,w hw分别代表特征图的高和宽。接下来,在 ϕ \phi ϕ上使用全局平均池化获得池化的特征 F k = ∑ x , y ϕ ( x , y ) F_k=\sum_{x,y}\phi(x,y) Fk=x,yϕ(x,y)。在最后添加分类层,对于类别c的分类激活图(CAM)如下所示:
在这里插入图片描述
其中 w k c w_k^c wkc是在全局平均池化层中,对应于第c个类别的第k个通道的权重。获得的类别激活图 M c M_c Mc通过双线性插值被上采样到原始图片的大小 R H × W \R^{H\times W} RH×W。因为一个图片能够有多个对象实例,在类激活图 M c M_c Mc上可以观察到多个局部最大响应。我们对这个图应用multi-region level set分割去分割候选对象实例。接下来,对于每个实例,我们将类激活规范化为[0,1]范围。假设我们在CAM中有 n n n个对象实例,我们通过归一化CAM建立了一个对象概率图 F ∈ R ( n + 1 ) × H × W F\in\R^{(n+1)\times H\times W} FR(n+1)×H×W。最开始的 n n n个对象概率图代表在图片中某个类别的概率,第 ( n + 1 ) (n+1) (n+1)个概率图代表背景的概率。背景概率图用下面公式计算
在这里插入图片描述
条件随机域(CRF)被用来提取高质量的对象分割。为了使用CRFs,一个标签图 L L L通过下面公式产生。
在这里插入图片描述
其中 σ c \sigma_c σc通常被设置为0.8,一种固定的阈值,用来确定某个像素属于某个对象或背景。标签图 L L L被输入到CRF去产生对象实例分割,它被作为一个用于Mask-RCNN训练的伪groundtruth标签。Fig 2 stage 1 展示了整个对象实例分割的过程。
在这里插入图片描述在这里插入图片描述
Jointly Detect and Segment Object Instance. 给定一个图像 I I I的分割的对象实例的集合, S = [ S 1 , S 2 , . . . , S n ] S=[S_1,S_2,...,S_n] S=[S1,S2,...,Sn],和他们对应的在前一阶段产生的类别标签,我们得到了每个分割的最小的bounding box去建立一个proposals, P = [ P 1 , P 2 , . . . P n ] P=[P_1,P_2,...P_n] P=[P1,P2,...Pn]。proposal P,segments S 和他们对应的类别标签用于训练Mask R-CNN ,使其对proposal和mask进一步的调优。用这种方法,我们将目标检测和实例分割转换为全监督学习。
CRF-Based Segmentation. 假设有对应于类别c的 m m m个对象proposals, P ∗ = [ P 1 ∗ , P 2 ∗ , . . . , P m ∗ ] P^*=[P_1^*,P_2^*,...,P^*_m] P=[P1,P2...Pm]和它们对应的分割 S ∗ = [ S 1 ∗ , S 2 ∗ , . . . , S m ∗ ] S^*=[S_1^*,S_2^*,...,S^*_m] S=[S1,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值