Learning deep representations of fine-grained visual descriptions

该博客探讨了深度结构化联合嵌入在细粒度视觉识别中的应用,特别是通过训练端到端的模型,使自然语言与图像内容对齐。作者提出了一种新的方法,不依赖预训练和手动编码属性,而是利用自然语言描述来学习区分细粒度类别的视觉特征。实验显示,这种方法在零样本图像检索和Caltech-UCSD Birds200-2011数据集的零样本分类中表现出色。
摘要由CSDN通过智能技术生成

Abstract

最先进的zero-shot视觉识别将学习视为图像和补充信息的联合问题。其中对视觉特征来说最有效的补充信息是属性-描述类与类之间的共享特征的手动编码向量。尽管算法表现很好,但是属性任然是有局限的:

  • 更细粒度的识别需要相当多的属性
  • 属性不提供自然语言界面(attributes do not provide a natural language interface)(不能显式的表示?)

作者通过从头开始训练一个没有预先训练,只考虑文字和字符的自然语言模型来打破这些局限。作者提出一个使得细粒度和特定类别相一致的端到端的模型(Our proposed models train end-to-end to align with the fine-grained and category-specific content of images. )。自然语言提供了一种灵活而紧凑的方式来编码能显著区分类别的视觉特征。该模型在zero-shot的基于文本的图像检索方面展现了强大的性能,并且在Caltech-UCSD Birds200-2011数据集上的zero-shot分类方面明显优于基于属性的最新技术。


Introduction

图像理解的一个关键问题就是如何正确的将自然语言和图像的视觉内容联系起来。尽管近些年有很多进展,但是这个问题还远没有被解决,特别是当图像类只有细微的差别时,或许是由于缺少足够的高质量的训练数据,精细的语言模型还没有被应用。
要训练更精细的语言模型就需要更多的训练数据,特别是针对每个细粒度类别的每个图像和图像对齐的多个视觉描述。
作者收集了两个细粒度数据描述数据集,一个针对Caltech-UCSD birds dataset,另一个针对Oxford-102 flowers dataset。然后提出了提出了一个新的结构联合嵌入的扩展࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值