Abstract
最先进的zero-shot视觉识别将学习视为图像和补充信息的联合问题。其中对视觉特征来说最有效的补充信息是属性-描述类与类之间的共享特征的手动编码向量。尽管算法表现很好,但是属性任然是有局限的:
- 更细粒度的识别需要相当多的属性
- 属性不提供自然语言界面(attributes do not provide a natural language interface)(不能显式的表示?)
作者通过从头开始训练一个没有预先训练,只考虑文字和字符的自然语言模型来打破这些局限。作者提出一个使得细粒度和特定类别相一致的端到端的模型(Our proposed models train end-to-end to align with the fine-grained and category-specific content of images. )。自然语言提供了一种灵活而紧凑的方式来编码能显著区分类别的视觉特征。该模型在zero-shot的基于文本的图像检索方面展现了强大的性能,并且在Caltech-UCSD Birds200-2011数据集上的zero-shot分类方面明显优于基于属性的最新技术。
Introduction
图像理解的一个关键问题就是如何正确的将自然语言和图像的视觉内容联系起来。尽管近些年有很多进展,但是这个问题还远没有被解决,特别是当图像类只有细微的差别时,或许是由于缺少足够的高质量的训练数据,精细的语言模型还没有被应用。
要训练更精细的语言模型就需要更多的训练数据,特别是针对每个细粒度类别的每个图像和图像对齐的多个视觉描述。
作者收集了两个细粒度数据描述数据集,一个针对Caltech-UCSD birds dataset,另一个针对Oxford-102 flowers dataset。然后提出了提出了一个新的结构联合嵌入的扩展