Learning deep representations of fine-grained visual descriptions

最新推荐文章于 2020-12-14 01:23:55 发布

EwanRenton

最新推荐文章于 2020-12-14 01:23:55 发布

阅读量3.7k

点赞数

分类专栏： paper

本文链接：https://blog.csdn.net/sinat_29963957/article/details/81256165

版权

该博客探讨了深度结构化联合嵌入在细粒度视觉识别中的应用，特别是通过训练端到端的模型，使自然语言与图像内容对齐。作者提出了一种新的方法，不依赖预训练和手动编码属性，而是利用自然语言描述来学习区分细粒度类别的视觉特征。实验显示，这种方法在零样本图像检索和Caltech-UCSD Birds200-2011数据集的零样本分类中表现出色。

摘要由CSDN通过智能技术生成

Abstract

最先进的zero-shot视觉识别将学习视为图像和补充信息的联合问题。其中对视觉特征来说最有效的补充信息是属性-描述类与类之间的共享特征的手动编码向量。尽管算法表现很好，但是属性任然是有局限的：

更细粒度的识别需要相当多的属性
属性不提供自然语言界面（attributes do not provide a natural language interface）（不能显式的表示？）

作者通过从头开始训练一个没有预先训练，只考虑文字和字符的自然语言模型来打破这些局限。作者提出一个使得细粒度和特定类别相一致的端到端的模型（Our proposed models train end-to-end to align with the fine-grained and category-specific content of images. )。自然语言提供了一种灵活而紧凑的方式来编码能显著区分类别的视觉特征。该模型在zero-shot的基于文本的图像检索方面展现了强大的性能，并且在Caltech-UCSD Birds200-2011数据集上的zero-shot分类方面明显优于基于属性的最新技术。

Introduction

图像理解的一个关键问题就是如何正确的将自然语言和图像的视觉内容联系起来。尽管近些年有很多进展，但是这个问题还远没有被解决，特别是当图像类只有细微的差别时，或许是由于缺少足够的高质量的训练数据，精细的语言模型还没有被应用。
要训练更精细的语言模型就需要更多的训练数据，特别是针对每个细粒度类别的每个图像和图像对齐的多个视觉描述。
作者收集了两个细粒度数据描述数据集，一个针对Caltech-UCSD birds dataset，另一个针对Oxford-102 flowers dataset。然后提出了提出了一个新的结构联合嵌入的扩展࿰

最低0.47元/天解锁文章

EwanRenton

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Learning deep representations of fine-grained visual descriptions

Abstract最先进的zero-shot视觉识别将学习视为图像和补充信息的联合问题。其中对视觉特征来说最有效的补充信息是属性-描述类与类之间的共享特征的手动编码向量。尽管算法表现很好，但是属性任然是有局限的：更细粒度的识别需要相当多的属性属性不提供自然语言界面（attributes do not provide a natural language interface）（不能显式的表...
复制链接

扫一扫

专栏目录