深度学习细颗粒图像分析综述

最新推荐文章于 2025-02-12 12:27:37 发布

JianqiuChen

最新推荐文章于 2025-02-12 12:27:37 发布

阅读量3.5k

点赞数 3

分类专栏：细粒度文章标签：图像识别计算机视觉

本文链接：https://blog.csdn.net/JianqiuChen/article/details/105458439

版权

细粒度专栏收录该内容

0 篇文章

订阅专栏

本文综述了深度学习在细颗粒图像分析（FGIA）领域的最新技术，重点关注细粒度图像识别。文章讨论了FGIA的挑战，如小类间差异和大类内差异，并介绍了三种主要的识别范式：定位-分类子网络、端到端特征编码和利用外部信息。同时，文中列举了多项代表性研究，包括Spatial Transformer Networks、RA-CNN和Bilinear CNNs等，这些方法通过不同的机制提高识别准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习细颗粒图像分析综述（图像识别）

计算机视觉（CV）是使用机器理解和分析图像的过程，这是人工智能的组成部分。在CV的各个研究领域中，细粒度图像分析（FGIA）是一个长期存在的基本问题，并且已在各种实际应用中无处不在。
FGIA的任务旨在分析从属类别（例如，鸟类或汽车模型）中的视觉对象。细粒度性质导致的小类间差异和大的类内差异使其成为具有挑战性的问题。在深度学习的蓬勃发展期间，近年来见证了使用深度学习技术的FGIA的显着进步。在本文中，我们旨在以系统的方式对基于深度学习的FGIA技术的最新进展进行调查。特别，我们将FGIA技术的现有研究分为三大类：细粒度图像识别，细粒度图像检索和细粒度图像生成。
此外，我们还涵盖了FGIA的其他一些重要问题，例如可公开获得的基准数据集及其相关领域特定的应用程序。最后，我们通过突出几个方向和未解决的问题来结束本调查，社区将来需要进一步探讨这些问题和问题。

1 介绍

FGIA （fine-grained image analysis）在过去的几十年是一个活跃的研究领域。FGIA 的目标是检索，识别和生成元类别的子类别。例如下图中的狗类别又有很多子类别如阿拉斯加等。
在这里插入图片描述
kaggle 上也有很多相关的比赛吸引了大量队伍参赛。感兴趣的可以点开下面的链接了解相关详情Kaggle上细粒度识别的相关比赛。

此综述比较了之前的一篇文章A survey on deep learning- based fine-grained object classification and semantic segmentation. 这篇文章比较了很多细颗粒图像识别的方法。作者在此基础更加深入并且加入了图像检索和生成的方法。

PRICAI, Wei and Wu 也出版了一个详细的关于细颗粒图像分析的教程。教程地址建议大家可以简单了解了解。

这篇文章大致有三个部分：
1 项目背景，基准数据集， FGIA的一套深度学习方法以及应用领域。
2 系统的概述一下深度学习的FGIA的组织架构（见下图）
3 挑战和问题以及细颗粒研究的路线图

在这里插入图片描述

2 背景：问题和主要的挑战

细粒度图像分析（FGIA）专注于处理属于同一元类别的多个子类别的对象（例如，鸟，狗和汽车），并且通常涉及诸如细粒度图像识别，粒度图像检索，细粒度图像生成等。

FGIA与普通图像分析的区别在于：在普通图像分析中，目标对象属于粗粒度的元类别（例如，鸟，橘子和狗），因此在视觉上有很大的不同。但是，在FGIA中，由于对象来自一个元类别的子类别，因此细粒度的性质使它们在外观上非常相似。我们以图像识别为例。如图1所示，在细粒度识别中，需要任务来识别多种相似的犬种，例如赫斯基，萨摩耶德和阿拉斯加。为了准确识别，希望通过捕获微小和细微的差异（例如，耳朵，鼻子，尾巴）来区分它们，这也满足其他FGIA任务（例如，检索和生成）的需求。

此外，细颗粒也具有更小的类间差异（small inter- class variations）
因为每个子类非常相似，类内差异很大（不同角度，大小和旋转导致）如下图所示

3 基准数据集（Benchmark datasets）

下图展示了一些基准数据集和相应的元类别
在这里插入图片描述
其中CUB200-2011 是最流行的细颗粒数据集，很多方法也是和它的state-of-the-arts做比较

4 细颗粒图像识别

细粒度图像识别主要分为三个范式：

（1）with localization-classification subnetworks
（2）with end-to-end feature encoding
（3）with external information

第一种和第二种方法是有监督的方法，需要大量的标注数据如 image labels， bounding boxes， part annotation 等等。但是自动识别系统也还是不能达到很好的效果。因此第三种方法使用易得的外部信息来提升准确率。

细粒度识别中普遍使用的评估指标是数据集所有下属类别的平均分类精度

4.1 By localization-classification subnetworks

为了解决类内差异的问题，定位分类子网络着力于捕捉具有区分性的关键部分。

因为有这些位置信息，part-level bounding boxes or segmentation masks ，这个网络可以捕捉很多小的表征。

相关工作：
依靠额外的dense part annotations定位关键语义部分
比如 Zhang 的 Part-based R-CNNs for fine-grained category detection使用RCNN fine tuning 一个200的分类器，并构建多个detector来预测root和part的位置并加上某种约束。还有一种基于MASKcnn的方法的就不过多赘述了。Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition
这些方法都是将多个部分的特征融合成整个图像的表征并进行最后的识别。这类方法被统称为
part-based 的识别方法。

上述方法在可扩展和实践性上存在限制，在此之后有一批技术仅需要image labels即可完成准确的部分定位。主要的动机是首先找到对应的部分并比较他们的外观。

仅需要image labels的方法：
Spatial Transformer Networks 如果图像一定角度倾斜或偏移，Spatial Transformer可以对输入图像进行仿射变换。

Recurrent attention convolutional neural network for fine-grained image recognition 中的RA-CNN算法不需要对数据做类似bounding box的标注就能取得和采用类似bounding box标注的算法效果。有多个结构相同参数不共享的子网络对应每个scale。每个子网络包含分类网络和APN网络。对两个网络进行教程训练。用APN网络取代了之前的bbox。通过rank 损失函数使得每一层的准确率逐步提升。
具体的可以看我的这篇文章RACNN笔记

MACNN 不同通道关注视觉信息不同，峰值响应区域也不同。融合相近的区域组成attention part
在这里插入图片描述
MA-CNN的损失由两部分组成，一部分是part classification loss,即普通的分类网络中的交叉熵；另一部分是channel grouping loss。Dis是使同一part内的坐标更聚集，Div是使不同part尽量疏远。

这篇文章有详细的讲解，感兴趣的可以再看看MACNN笔记

Multi-attention multi-class constraint for fine-grained image recognition OSME模块 + MAMC
在这里插入图片描述
基于注意力机制的方法：
Learning to Navigate for Fine-grained Classification：
文章提出了一种新颖的自监督（self-supervision ）机制和Navigator-Teacher-Scrutinizer Network（NTS-Net）模型相关笔记

Weakly Supervised Learning of Part Selection Model with Spatial Constraints for Fine-Grained Image Classification
two stages: saliency extraction and co-segmentation.

4.2 By end-to-end feature encoding

Bilinear CNNs：作为端到端的主要方法，通过两个CNN网络生成关于位置和特征信息的向，并将这两个向量进行外积得到一个关于l点的特征矩阵，在进行sum pooling 成一个向量进行softmax分类。
在这里插入图片描述
还有一些改进方法稍后我再加入

4.3 With external information

With web data：
该方法可以免费的从网络上获取一些有噪声的标注数据来提升识别的准确度。

一种方法是为测试种类搜索一些有噪声的标注数据作为训练数据。
a weakly-supervised deep learning framework for learning from web data：从网络上搜索的数据在训练集上打包送入cnn训练然后将结果进行pooling 并加上attention
在这里插入图片描述
作用是（1）减小了网络数据集和人工标注良好的数据集之间的差距
（2）是减小了噪声数据的消极影响
零
次学习的方法（zero shot）：论文
将文字信息和图像信息融合加上部分辅助的标注信息（如何融合？）