coarse-to-fine(6) - DML

momoka9

已于 2022-04-20 14:20:38 修改

阅读量3.1k

点赞数

分类专栏：论文笔记文章标签： python

于 2022-04-20 14:19:59 首次发布

本文链接：https://blog.csdn.net/momoka9/article/details/124296156

版权

Fine-Grained Visual Categorization via Multi-stage Metric Learning

细粒度视觉分类（FGVC）是指将对象归入从属类而不是基本类。FGVC的一个主要挑战是两个问题的共同存在。1）许多从属类高度相关，难以区分；2）存在较大的类内变化（例如，由于物体的姿势）。本文提出通过距离度量学习（DML）明确地解决上述两个问题。DML通过学习嵌入来解决第一个问题，使来自同一类别的数据点被拉到一起，而来自不同类别的数据点应该被相互推开；它通过允许同一类别的邻居中只有一部分（而不是所有的数据点）需要被拉到一起的灵活性来解决第二个问题。

流行的FVGC的管道包括两个步骤，特征提取步骤和分类步骤。特征提取步骤，有时与分割[1, 7, 24]、部位定位[2, 35]或两者结合[6]，是为了提取图像级别的表示，流行的选择包括LLC特征[1]、Fisher向量[14]等。最近的一个发展是在大规模的图像数据集（如ImageNet[26]）上训练卷积神经网络（CNN）[18]，然后使用训练好的模型来提取特征[12]。

对于分类步骤，许多现有的FGVC方法直接为每个细粒度的类学习一个单一的分类器，使用一比一的策略[1, 2, 7, 35]。显然，这种策略对细粒度类的数量没有很好的扩展性，而FGVC中的下属类的数量可能非常大（例如，在birds11数据集中有200个类）。此外，这种一刀切的方案只是为了解决这两个问题中的第一个问题，即努力分离不同的类而不对类内的变化进行建模。在本文中，我们提出了一种距离度量学习（DML）方

最低0.47元/天解锁文章