Fine-Grained Visual Categorization via Multi-stage Metric Learning
细粒度视觉分类(FGVC)是指将对象归入从属类而不是基本类。FGVC的一个主要挑战是两个问题的共同存在。1)许多从属类高度相关,难以区分;2)存在较大的类内变化(例如,由于物体的姿势)。本文提出通过距离度量学习(DML)明确地解决上述两个问题。DML通过学习嵌入来解决第一个问题,使来自同一类别的数据点被拉到一起,而来自不同类别的数据点应该被相互推开;它通过允许同一类别的邻居中只有一部分(而不是所有的数据点)需要被拉到一起的灵活性来解决第二个问题。
流行的FVGC的管道包括两个步骤,特征提取步骤和分类步骤。特征提取步骤,有时与分割[1, 7, 24]、部位定位[2, 35]或两者结合[6],是为了提取图像级别的表示,流行的选择包括LLC特征[1]、Fisher向量[14]等。最近的一个发展是在大规模的图像数据集(如ImageNet[26])上训练卷积神经网络(CNN)[18],然后使用训练好的模型来提取特征[12]。
对于分类步骤,许多现有的FGVC方法直接为每个细粒度的类学习一个单一的分类器,使用一比一的策略[1, 2, 7, 35]。显然,这种策略对细粒度类的数量没有很好的扩展性,而FGVC中的下属类的数量可能非常大(例如,在birds11数据集中有200个类)。此外,这种一刀切的方案只是为了解决这两个问题中的第一个问题,即努力分离不同的类而不对类内的变化进行建模。在本文中,我们提出了一种距离度量学习(DML)方