Fine-grained Classification 论文调研

目录

细粒度分类综述

论文一 Learning to Navigate for Fine-grained Classification (ECCV2018 from PKU)

1. Abstract

2. Architecture

3. Experiment

4.conclusion

论文二:Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition(ECCV2018 from Baidu)

1. Abstract

2. Architecture

3. Experiment

4. Conclusion

论文三 Object-Part Attention Driven Discriminative Localization for Fine grained Image Classification (from ThU)

1. Abstract

2. Architecture

3. Experiment

4. Conclusion

论文四  Learning a Discriminative Filter Bank within a CNN for Fine grained Recognition(CVPR2018)

 1. Abstract

2. Architecture

3. Experiment

4. Conclusion


细粒度分类综述

细粒度图像分类问题是对大类下的子类进行识别。细粒度图像分析任务相对通用图像(General/Generic Images)任务的区别和难点在于其图像所属类别的粒度更为精细。
通用图像分类其任务诉求是将“袋鼠”和“狗”这两个物体大类(蓝色框和红色框中物体)分开,可见无论从样貌、形态等方面,二者还是很容易被区分的;而细粒度图像的分类任务则要求对“狗”该类类别下细粒度的子类,即分别为“哈士奇”和“爱斯基摩犬”的图像分辨开来。正因同类别物种的不同子类往往仅在耳朵形状、毛色等细微处存在差异,可谓“差之毫厘,谬以千里”。不止对计算机,对普通人来说,细粒度图像任务的难度和挑战无疑也更为巨大。

                          在这里插入图片描述

细粒度分类:同一类中不同子类物体间的分类。 
难点:受视角、背景、遮挡等因素影响较大,类内差异较大、类间差异较小。

基于深度学习的物体分类可以大致分为4类:

  1. 使用通用DCNN(Deep Convolutional Neural Network,深度卷积神经网络)进行细粒度分类;
  2. 先使用DCNN进行部件定位,之后进行部位对齐;
  3. 使用多个DCNN对细粒度识别中的相似特征进行判别;
  4. 使用注意力模型定位区分性强的区域。

下面将介绍几篇近几年在顶会中出现的关于细粒度分类的论文。论文将通过摘要,框架,实验细节,结论进行分析,具体细节可以按文中所给链接下载精读论文。

论文一 Learning to Navigate for Fine-grained Classification (ECCV2018 from PKU)

1. Abstract

文章提出了一种新颖的自监督self-supervision 机制,可以有效地定位信息区域而无需边界框/部分注释bounding box/part annotations。提出的模型,称为Navigator-Teacher-Scrutinizer NetworkNTS-Net),Navigator agentTeacher agentScrutinizer agent组成。考虑到informativeness of the regionsground-truth class概率之间的内在一致性,设计了一种新颖的训练机制,使Navigator能够在Teacher的指导下检测大部分信息区域informative regions)。之后,Scrutinizer仔细检查Navigator中建议区域(proposed regions)并进行预测。文章提出的模型可以被视为一种多代理合作multi-agent cooperation),其中agents彼此相互受益,共同进步。 NTS-Net可以端到端地进行训练,同时在推理过程中提供准确的细粒度分类预测以及更大的信息区域。

2. Architecture

开发的模型称为NTS-Net,采用multi-agent cooperative学习方法来解决准确识别图像中的信息区域的问题。 直观地,被赋予地ground-truth class的概率较高的区域应该包含更多的对象特征语义,从而增强整个图像的分类性能。 因此,设计了一种新的损失函数来优化每个选定区域的信息量,使其具有与概率为ground-truth class相同的顺序,并且我们将完整图像的ground-truth class作为区域的ground-truth class。

      

NTS-NetNavigator agent,Teacher agentScrutinizer agent组成。

1. Navigator导航模型以关注最具信息性的区域:对于图像中的每个区域,Navigator预测区域的信息量,并使用预测来提出(propose)信息量最大的区域。

2. Teacher评估Navigator建议的区域并提供反馈:对于每个建议区域(proposed region),Teacher评估其属于ground-truth class的概率;置信度(confidence)评估指导Navigator使用新颖的排序一致(ordering-consistent)损失函数来提出更多信息区域。

(这里受RPN的影响,在poolNet网络中也有体现)

3. Scrutinizer仔细检查Navigator中建议区域并完成细粒度分类:每个建议区域被放大到相同的大小,并且Scrutinizer提取其中的特征;区域特征和整个图像的特征被联合处理,以完成细粒度分类。

该网络主体分为三个组件:Navigator、Teacher、Scrutinizer

1)Navigator:类似于Feature Pyramid Networks(FPN结构,在不同尺度Feature maps上生成多个候选框,每个候选框的坐标与预先设计好的Anchors相对应。Navigator做的就是给每一个候选区域的“信息量”打分,信息量大的区域分数高。

2) Teacher:就是普通的Feature Extractor + FC + softmax判断输入区域属于target lable的概率。

3) Scrutinizer:就是一个全连接层,输入是把“各个局部区域和全图提取出来的logits”concat到一起的一个长向量,输出对应200个类别的logits

     

3. Experiment

                                

4.conclusion

                           

               


论文二:Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition(ECCV2018 from Baidu)

1. Abstract

文章提出了一种新的基于注意力的卷积神经网络(CNN),在不同输入图像之间调节(regulate)多个对象部分。

2. Architecture

本文提出的弱监督方法可以高效精确地获取判别区域。如下图所示,本文方法框架有两部分组成:1)压缩-多扩展one-squeeze multi-excitationOSME)模块,轻微增加计算量,从多个注意力区域提取特征。2)多注意力多类别约束multi-attention multi-class constraintMAMC),加强注意力区域之间的通信。

                        

OSME :

也是一种弱监督下的部件定位的注意力方法。如上图,我们的框架以ResNet50作为baseline, SEnet通过压缩-扩展操作对输出特征图再校准。为了产生P个特定注意力的特征图,我们从SEnet延伸,把一次扩展操作换成多次扩展操作。

在压缩操作中,我们聚合特征图空间产生通道级的描述子,和通道数一致。全局平均池化是一种简单高效的通道统计特征描述方法。

在扩展操作中,对通道描述子施加多个独立门机制,产生多个注意力图。门机制中是FC+Relu+FC+Sigmoid,由于sigmoid特性,其输出对通道间的非互斥关系进行了编码。我们利用其输出对起初Resnet50的输出进行再次加权,得到特定注意力图。

为了对每个特定注意力图进行特征提取,将这些特定注意力图展平成向量之后输入进FC层。简单而言,本文通过对baseline输出全剧平均池化之后进行多次门操作获得P个特征向量。并认为这些特征向量是对不同非互斥部件/特征的聚类(这里还不能称为判别性特征)。

MAMC

让以上模块产生的注意力特征指向类别,产生判别性注意力特征。论文在训练中增强两两部件之间的关系。这种方法就是多注意力多类别机制。

训练集组织:我们有图像-类别对,为了刻画图片之间的注意力和同一子类内的注意力之间的关系,我们重新组织输入Batch

具体而言就是,每个batch中有N对图片,每对两张图片来自同一个子类,取一个图片为锚点(anchor),另一个为此anchor的正样本,然后给出他们所属类别。那么经过OSME模块,假设有Pexcitation,那么每个样本就各自产生P个注意力特征向量

3. Experiment

                            

4. Conclusion

         

             


论文三 Object-Part Attention Driven Discriminative Localization for Fine grained Image Classification (from ThU)

1. Abstract

个模型:

  • Object-Part Attention Model:该模型可以不利用人工annotations信息来生成objectparts。它的注意力分为两级:Object级注意力模型利用CNN中的全局平均池化提取saliency map,以定位物体在图中的位置;Part级注意力模型首先选出有区别的部分,然后再把它们根据神经网络中的 cluster pattern 排列起来,以学习局部特征。将两级模型连接起来,就可以增强multi-view and multi-scale的特征学习
  • Object-Part Spatial Constraint Model:该模型同样分为两个约束:Object级空间约束强行让选择出来的parts定位到object区域中;Part级空间约束减少parts中的重叠,且强调parts的显著性,这样可以消除重复且提高parts的区分性。两种空间约束联合起来,不仅可以发现更多显著的局部细节,还可以大大提高细粒度图像分类的准确率。

2. Architecture

ClassNet关注的是原始图像,ObjectNet关注的是目标objectPartNet关注的是局部partsObjectNet里面还有FilterNet

Object-level注意模型首先利用FilterNet生成与object相关的patch,这些patch又推动ClassNet更好地学习特征和目标定位。part-level注意模型选择出合适的局部信息

最后的得分方式是:  三个分数分别代表了ClassNetObjectNetPartNetsoftmax值,α,β,γα,β,γ通过交叉验证来选择,以使final_score最高。

3. Experiment

                           

分类网络还加上了batch normalization。由于要识别原始图像、objectparts三块,每个都用相同的CNN结构,只是训练数据不同。

4. Conclusion

          

          

           


论文四  Learning a Discriminative Filter Bank within a CNN for Fine grained Recognition(CVPR2018)

 1. Abstract

端到端弱监督地增强mid-level 学习能力:
1.取特征图聚类中心来初始化的1 * 1 * C卷积核检测判别性区域
2.非对称多分支网络结构同时利用局部信息和全局信息。
3.多尺度-结合检测中的pyramid方法

2. Architecture

对于细粒度分类,全局信息也是至关重要的。所以需要一条分支解码全局信息。即普通conv+fc层。然后选取适当的一个较高层卷积,分出另外一条分支进行mid-level能力加强,关注局部信息1* 1 * C conv当作判别性区域检测器。如下图

   

         

3. Experiment

              

4. Conclusion

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值