细粒度（fine-grained）识别综述-CSDN博客

本文链接：https://blog.csdn.net/m0_74137224/article/details/134844129

最近在研究细粒度，看了很多文章，想做一个总结。后续会继续补充研究的进展。

一：细粒度（fine-grained）的概念

一：细粒度（fine-grained）的概念

首先提出一个问题:目标检测两个目标比较相似怎么办？用以往的YOLO系列的目标检测等去检测基本上是不太现实的（精度低）。学术上将这个问题划到了细粒度目标检测，就是相似目标的检测，与coarse-grained classification（粗粒度）相比，粗粒度是分辨猫还是狗，而细粒度是分辨狗的种类，比如这个狗是杜宾犬还是金毛。

二：常用的细粒度分类训练和测试的数据集：

1.Stanford Dogs 包含120种狗，每个类别有150张图片,图像总数：20580，基于ImageNet的图像和注释构建的，用于细粒度图像分类任务，分为 12,000 张用于训练的图像和 8,580 张用于测试的图像。

Stanford Dogs dataset for Fine-Grained Visual Categorization

2.CUB200-2011 Caltech-UCSD Birds-200-2011 数据集是用于细粒度视觉分类任务的最广泛使用的数据集。它包含属于鸟类的 200 个子类别，其中每类都有30+ 个训练图像，一共11,788 张图像，其中 5,994 张用于训练，5,794 张用于测试。每个图像都有详细的注释：1 个子类别标签，每张图像包含15个局部部位标注点（part annotation）用来标记鸟类的身体部位，312 个二值属性和 1 个标注框，以及语义分割图像。文本信息来自 Reed 等人。他们通过收集细粒度的自然语言描述来扩展 CUB-200-2011 数据集。每张图像收集了十个单句描述。自然语言描述是通过 Amazon Mechanical Turk （AMT）平台收集的，至少需要 10 个单词，没有任何子类别和操作的信息。

CUB-200-2011型 (caltech.edu)

3.Oxford Flowers 分为两种不同规模的数据库, 分别包含17种类别和102种类别的花. 其中,102种类别的数据库比较常用, 每个类别包含了40到258 张图像数据, 总共有8,189张图像该数据库只提供语义分割图像, 不包含其他额外标注信息。这些图像具有较大的比例、姿势和光线变化。此外，还有一些类别在类别内有很大的差异，并且有几个非常相似的类别。

Visual Geometry Group - 牛津大学 (ox.ac.uk)

4.FGVC-Aircraf Fine-Grained Visual Classification of Aircraft

FGVC-Aircraft 包含 10,200 张飞机图像，其中 100 种不同飞机模型变体中的每一种都有 102 张图像，其中大部分是飞机。每张图像中的（主）飞机都带有一个紧密的边界框和一个分层的飞机模型标签。只提供标注框信息。飞机模型按四级层次结构进行组织。从细到粗的四个级别是：

型号，例如波音 737-76J。由于某些模型在视觉上几乎无法区分，因此在评估中不使用此级别。
变体，例如波音 737-700。变体将所有在视觉上无法区分的模型折叠到一个类中。该数据集包含 102 个不同的变体。
家庭，例如波音 737。该数据集包括 70 个不同的家族。
制造商，例如波音公司。该数据集包括 41 个不同的制造商。数据分为三个大小相等的训练、验证和测试子集。

FGVC-Aircraft (ox.ac.uk)

5.Stanford-Cars 斯坦福汽车数据集由 196 类汽车组成，共有 16,185 张图像，从后方拍摄。数据分为几乎 50-50 的训练/测试拆分，包括 8,144 张训练图像和 8,041 张测试图像。类别通常位于品牌、型号、年份级别。图像为 360×240。

三：细粒度近些年的论文和研究方向

LionRoarRoar/Awesome-Fine-grained-Visual-Classification: Awesome Fine-grained Visual Classification (github.com)

四：一些好的机器学习数据集网址分享

paperswithcode

Machine Learning Datasets | Papers With Code

这个网站的优点在与将ArXiv上的最新的paper与GitHub上的code对应起来，还有这篇paper用了哪些数据集进行训练和测试，都总结出来了。还有就是上面有8,916 个机器学习的数据集（包括很多广泛使用的数据集）。用好这个网站能够帮助我们节省不少的时间。具体怎么使用可参考这个博主的介绍。

papers with code介绍（人工智能方向研究生的必备网站）_paperwithcode-CSDN博客写的非常的详细。

ImageNet

ImageNet (image-net.org)

ImageNet是一个大规模的图像数据库和相关的图像识别挑战赛。它是一个由斯坦福大学教授Li Fei-Fei创建的项目，旨在推动计算机视觉领域的发展。该数据库拥有数百万张有标签的图像，用于训练深度学习模型并提高图像识别的准确性。ImageNet Challenge是每年举行的一个竞赛，参赛者的任务是开发算法来在给定的1000个对象类别中对物体进行分类和定位。ImageNet数据库和挑战赛在计算机视觉领域产生了深远的影响，被广泛应用于图像识别、自然语言处理等领域。

具体详细的介绍可参考这个博主写的介绍，也是写的非常的详细。

ImageNet数据集简介与下载详细步骤_imagenet数据集下载-CSDN博客