[ECCV 2018] Learning Class Prototypes via Structure Alignment for Zero-Shot Recognition

最新推荐文章于 2023-02-19 10:23:17 发布

一亩高粱

最新推荐文章于 2023-02-19 10:23:17 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/cp_oldy/article/details/83002908

版权

基于结构对齐的类原型学习实现零样本识别
Learning Class Prototypes via Structure Alignment for Zero-Shot Recognition

本文亮点：双字典框架进行结构对齐。

Abstract

Zero-shot learning (ZSL) aims to recognize objects of novel classes without any training samples of specific classes, which is achieved by exploiting the semantic information and auxiliary datasets. Recently most ZSL approaches focus on learning visual-semantic embeddings to transfer knowledge from the auxiliary datasets to the novel classes. However, few works study whether the semantic information is discriminative or not for the recognition task. To tackle such problem, we propose a coupled dictionary learning approach to align the visual-semantic structures using the class prototypes, where the discriminative information lying in the visual space is utilized to improve the less discriminative semantic space. Then, zero-shot recognition can be performed in different spaces by the simple nearest neighbor approach using the learned class prototypes. Extensive experiments on four benchmark datasets show the effectiveness of the proposed approach.

翻译一下摘要：
零样本学习（ZSL）旨在通过利用语义信息和辅助数据集，来识别没有训练样本的新类的目标。最近，大多数ZSL方法集中在学习视觉-语义嵌入，将知识从辅助数据集迁移到新类别。然而，很少有工作研究语义信息对ZSL任务是否有判别性。为了解决这个问题，我们提出了一个耦合字典学习方法使用类原型来对齐视觉-语义结构，其中使用视觉空间中的判别性信息提升判别性不强的语义空间。然后，在不同的空间中用学到的类原型做简单的最近邻搜索完成零样本识别任务。四个基准数据集上的大量的实验证明了所提方法的有效性。

问题1：什么是视觉-语义结构？又是怎么对齐的？
问题2：语义信息是否具有判别性，怎么度量？具有判别性，对ZSL任务有什么好处？可解释吗？

1 Introduction

ZSL问题的背景是，收集大量图像的是困难的。一方面，稀有种类的图像收集难（长尾分布）；另一方面，细粒度分类的图像标注难（需专家知识）。

ZSL方法一般分为3步：
第一步，选一个语义空间，
第二步，学一个一般的视觉-语义嵌入，
第三步，执行识别任务。

Fig.1

传统ZSL方法的问题：

类别的描述不足，具体表现为人工定义或者自动获取的语义信息，是不完全的或者对分类任务判别性不足够。
举例来讲，图1中猫和狗在语义空间中距离很近，论文暗含的意思是在视觉空间中，他们其实很远。
原因：图像是类别的实际反馈，图像包含更多的判别信息，但是这些信息可能是无法描述的。
语义信息是独立获取的，和视觉样本无关，这导致在视觉空间和语义空间中的类结构的不一致。
导致的问题：视觉语义映射会过去复杂难以学习，即使学到了，很大概率上会在已见类上过拟合，而在未见类上扩展性不大。

本文的创新点：
1.传统方法使用视觉语义映射来实现ZSL，本文通过类原型上的结构对齐来实现该任务。
2.耦合字典学习框架，实现对视觉空间的判别特性和语义空间的丰富性的合并。
3.使用未见类的语义信息进行域自适应，增加模型对未见类的扩展性。