论文笔记：Two-level attention model for fine-grained Image classification

最新推荐文章于 2022-10-20 19:20:47 发布

Emma-SJ

最新推荐文章于 2022-10-20 19:20:47 发布

阅读量1.1w

点赞数 4

分类专栏： image-clas 文章标签： model

本文链接：https://blog.csdn.net/baidu_17806763/article/details/70209567

版权

本文介绍了一种应用于细粒度图像分类的双层注意力模型，通过结合物体层面和部分层面的注意力机制，提高分类性能。首先利用预训练的CNN过滤无关区域，然后通过聚类找到具有辨别力的部分，再用SVM进行部分特征的分类。最终，通过融合两个层面的注意力结果，实现更精确的细粒度图像分类。

摘要由CSDN通过智能技术生成

The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification（细粒度图像识别）

原文链接：paper
我先来总结一下这篇文章主要的思路：

主要就是利用region proposal，寻找对于最后分类结果有积极影响的proposal，去掉那些无用的噪声。论文提到了两个filter proposal的方法。第一个利用image-level训练好的model，和设定的阈值，直接对selective search产生的proposal，进行第一次去燥，主要目的得到高查全率，准确率可以不高。第二次filter，就是利用第一次filter之后的数据重新训练网络，提取网络第四层卷积的特征，对其聚类，根据这个从第一次filter之后的proposal里面选择3个对于分类最有影响力的part-level proposal，最后利用SVM分类。

感觉整个过程就是想方设法，找到对结果最有影响力proposal，然后训练分类器，结果就不错。文章想法很不错，进行聚类。最值得表扬的是，不仅思路新，而且文章有理有据，把整个过程说的很明白，这点很欣赏。希望自己以后也能写出正常人都能看懂的paper。

摘要

fine-grained分类由于类别之间只有通过细微局部的差异才能够被区分出来，因此很有挑战性。位置，大小或者旋转都会使问题变得更加困难。很多这类问题的解决思路是where（object）和what（feature）式的。
这篇文章将视觉attention应用到fine-grained分类问题中使用DNN。我们整合了3中attention模型：bottom-up（提供候选者patch），object-level top-down（certain object相关patch），和part-level top-down （定位具有分辨能力的parts）。我们把这几个attentions结合起来训练domain-specific深度网络。不适用bounding box标注。利用了弱监督学习的知识来实现。

引言

fine-gained分类是在基础类别下的次分类问题，比如分类不同类型的鸟，狗，花的类别。正是一个具有广泛应用价值的重要问题。类间差异要比类内差异小很多，所以fine-gained分类是一个技术上的挑战问题。
特别的，fine-gained分类的困难来源于discriminal特征不仅仅是前景中的物体了，更加应该具有判别力的信息应该是物体的部分信息，比如说鸟的头部。因此很多fine-gained分类任务的方法一般都是：找到具有判别力的区域（物体本身或者物体的一部分）。
因此一个从底向上（bottom-up）的过程是不可避免的，我们需要提出很多图像区域作为物体候选者，或者这些区域包含那些具有判别力的部分。（这个相当于proposal regions，类似SIFT，selective search产生的候选者），这篇文章也利用selective research作为region提取器。
这个自底向上的霍城需要很高的召回率，准确率可以不用很高。（事实上，准确率相当低，因此好需要后续处理，只要召回率高，就说明物体在其中，在进行更为详细的方法，把它找到，从而提高准确率）。如果object很小，那么大多数的patches都是背景，对于分类物体一点用都没有，这就引出了top-down的方法来过滤掉这些噪声patches，选择出相关性比较高的patches。在fine-grained分类领域，找到前景物体和物体的部分被认为是两个过程，一个是object-level，一个是part-lecel。
许多已经存在的方法依赖强监督学习来解决attention问题。这就对人类标注产生了很大的依赖，比如使用bounding box或者landmarks。我们没有使用任何其中的核外标注。
由于标注很昂贵，并且不可伸缩，这个研究需要使用最弱监督来实现。
本片问孩子那个提出两个思路来解决这个问题，一个是object-level，一个是part-level。
这里是一个方法抽象总结：

把一个在ILSVRC2012上面预训练过的CNN转变成一个filterNet。FilterNet可以选择跟基准类别很相近的patches，因此可以处理object-level attention。这个选择到的patches用来训练另外一个CNN，训练成一个domain分类器，称DomainNet。
我们观察到了在DomainNet中隐藏的聚类模式，神经网络节点存在很高的敏感性对于具备判别力的部分。因此我们选择滤波器作为part-detector来实施part-level的实验。

在以上实验过程中，仅使用image-level 标注。
下一个部分就是提取具备判别力的特征，从整两个attention model里面选中的regions/patches中提取这些有判别力的特征。最近，很多论文传达出一种信息，就是从ＣＮＮ中提取到的特征，比手工提取特征实验结果要好很多。
在object-level,DomainNet直接输出了多视角（multi-view）的预测根据一张图片中几个相关的patches。在part-level，CNN隐层中的激活函数是由检测到的区域产生另外的一个预测结果通过一个基于part-based的分类器驱动的。最后的结果合并了这两种方法，结合了他们的优势。

我们初步实验结果证明了设计的有效性。使用最弱监督，我们提高了狗和鸟的分类效果的错误率从40.1%和21.1%降到了28.1%和11%。在CUB2002011数据集上，准确率达到了69.7%，如果使用VGGNet正确率能接近78%。