学习判别性隐含属性实现零样本分类
Learning Discriminative Latent Attributes for Zero-Shot Classification
Learning Discriminative Latent Attributes for Zero-Shot Classification

摘要
零样本学习(ZSL)旨在将观察到的类中的知识迁移到看不见的类,基于这样的假设:已见和未见类共享一个共同的语义空间,其中最常用属性表示语义。 然而,很少有工作研究人类设计的语义属性是否足以识别不同的类别。 此外,属性通常彼此相关,独立地学习每个属性是不足够的。 在本文中,我们提出学习一个**隐含属性空间**,它不仅具有判别性,而且还具有语义保持性,用以执行ZSL任务。 具体地,利用字典学习框架将隐含属性空间与属性空间和相似性空间连接起来。在四个基准数据集上的大量实验表明了所提方法的有效性。
- 论文通过一个字典学习框架来学习隐含属性。然后连接隐含属性空间与属性空间和相似性空间实现判别性和语义保持性。
##1. Introduction
随着数据规模的快速增长和分类方法的进步,在过去几年视觉识别取得了巨大的进步。然而,视觉识别的传统方法主要基于监督学习,其需要大量标记样本以获得高性能分类模型。众所周知,收集大量标记样本是困难的,特别是当所需标签是细粒度时,这阻碍了视觉识别的进一步发展。因此,开发能够识别具有很少或没有标记样本的类别的识别系统是重要且期望的,因此在过去几年中ZSL方法引起越来越多的关注。
受人类识别没见过的物体的能力的启发,ZSL旨在识别以前从未见过的类别[17,19]。 ZSL的一般假设是,已见和未见类共享一个共同的语义空间,样本和类原型被投影到该空间,以执行识别任务。就学习过程中利用的不同中间层表示而言,当前的ZSL方法可以分为四组。第一组是**基于属性的方法**,它利用属性来建立已见和未见类之间的关系[17,19,43,13]。例如,不同动物之间共享诸如黑色和毛茸茸等属性。属性跨类别的特性使得将知识从已见类迁移到未见类成为可能。第二组是**基于文本的方法**,它通过丰富的文本语料库自动挖掘不同类的关系[7,10,3,30]。这些方法减少了定义属性的人力,因此ZSL可以应用于大规模场景。第三个是**基于类别相似性**,它直接挖掘了已见和未见类之间的相似性,以桥接他们的关系[23,22,24,44]。相似性可以从分层类别结构或每个类的语义描述中导出。最后一组是**结合不同的中间层表示**来学习更强大的关系[11,12,19,15]。这些工作建立在一个共同的想法上,即不同的中间层表示可以捕获数据的补充信息,这可以用于减少已见和未见类之间的域差异。
在本文中,我们关注基于属性的方法。这类方法的传统过程主要集中在如何学习语义嵌入或用于执行识别任务的策略。然而,有三个方面在之前的工作中很少被考虑,如图1所示。第一,人类设计的语义属性是否具有足够的判别力以识别不同的类。第二,独立学习每个属性是否合理,因为属性通常彼此相关。第三,每个属性内的变化可能非常大,使得难以学习属性分类器。对于第一个方面,[43]提出学习判别性的类别级属性。但是,这些属性是在固定类别上学习的,并不关心语义含义。当新类出现时,类级表示必须重新学习。对于第二个方面,[14]将属性关系纳入学习过程。然而,这种关系是人为定义的,并且它们在现实世界中通常过于复杂而无法预先定义。对于第三方面,[15]利用域自适应方法来微调属性模型。但是,对于此类模型目标域样本是强制性的。
- 传统的方法主要考虑如何学习语义映射和利用什么策略执行识别任务。
- 学习隐含属性的三个动机:
- 人类设计的属性是否具有足够的判别力?
- 独立学习每个属性是否合理?
- 每个属性内的变化可能非常大?
为了同时解决上述问题,我们提出学习隐含属性。具体而言,我们的方法自动探索不同属性的判别组合,其中每个组合被看作一个隐含属性。一方面,隐含属性需要有足够的辨别力,从而更可靠地对不同类别进行分类。另一方面,隐含属性应该是语义保留的,从而能够建立不同类之间的关系。此外,在隐含属性中也隐式地考虑了属性相关性。例如,毛茸茸经常与黑色和白色相关,因此单独学习毛茸茸是不利的。相比之下,我们的隐含属性能够找到毛茸茸+黑色和毛茸茸+白色的组合,因此每个隐含属性内的变化会小于每个属性内的变化。
- 隐含属性是不同属性的组合。具有两个特点:一,判别性;二,语义保持性。
为了学习隐含属性空间来执行ZSL任务,我们利用字典学习框架直接建模隐含属性空间,其中图像可以通过一些隐含属性的字典项重建。为了保留语义信息,利用线性变换来建立属性和隐含属性之间的关系,因此可以将隐含属性视为属性的不同组合。此外,为了使隐含属性具有辨别力,使用已见类分类器来对不同的类进行分类,其中概率输出可以看作与已见类的相似性。因此,我们可以将图像表示从隐含属性空间转换到相似空间。
- 如何直接建模隐含属性空间?
- 图形如何重建?
本文的其余部分安排如下:第2节讨论相关工作。第3节详细描述了我们提出的隐含属性字典(LAD)方法的制定和优化。第4节在四个基准ZSL数据集上对我们的方法进行了广泛的评估。第5节给出结论性意见。
##2. Related Work
在本节中,我们将简要回顾有关属性和零样本学习的相关工作。
###2.1 Attributes
属性是图像的一般描述,近年来在不同的计算机视觉任务中引起了很多关注,如图像描述[9],图像字幕[16],图像检索[35]和图像分类[41,21,27]。早期关于属性学习的工作通常将其视为二元分类问题并独立学习每个属性[9]。由于属性经常相互关联,[14]将属性关系纳入学习框架。此外,属性与类别相关,[21,1]提出联合学习属性和类标签。随着近年来深度学习越来越受欢迎,[8]对视觉属性与卷积网络的不同层之间的关系进行了分析。为了使属性具有判别性,[43,29]利用判别属性来进行分类任务。但是,这些属性没有语义含义。
###2.2 Zero-Shot Learning
ZSL解决以前从没见过的类的识别问题。随着数据规模和图像标注的难度的增长,该应用近年来变得越来越流行。 ZSL,由[17]和[9]首先并行提出,由属性完成,它利用属性的跨类别特性来建立已见和未见类之间的关系。然后其他中间层语义描述被提出来解决这样的问题,例如词向量[7,10,3]和类相似性[23,22,24,44]。
零样本识别的一种直观方法是训练不同的属性分类器,并通过属性预测结果和未见类描述来识别图像[17,19]。考虑到属性分类器的不可靠性,[13]提出了一种随机森林方法来进行更强大的预测,[41,21,40]对属性和类之间的关系进行建模,以改进属性预测结果。为了利用语义流形上丰富的内在结构,[12]提出了语义流形距离来识别未见类样本。另一种广泛使用的方法是标签嵌入,它将图像和标签投影到一个共同的语义空间,并通过最近邻方法执行分类任务[1,2,26,44,19,42]。为了将ZSL扩展到大规模设置,使用神经网络来学习更复杂的非线性嵌入[25,10,37,3]。其他一些工作使用迁移学习技术将知识从已见类迁移到未见类[33,32,31,37,24,15]。最近,[45]提出捕捉相似空间中已见和未见类之间的隐含关系。[5]提出通过共享语义空间和特征空间之间的表示来直接合成未见类的分类器。[4]提出了一种度量学习方法来解决ZSL问题。 [6]将传统的ZSL问题扩展到广义的ZSL问题,其中在测试过程中也考虑了已见类。
ZSL的另一个流行假设是在问题设置中未见类的样本是可用的[11,19,15,46]。为了利用不同语义描述之间的补充信息,[11]提出了一种多视图嵌入方法,其中使用已见和未见类样本构建图模型,以减少已见和未见类之间的域差异。 [19]提出了一种半监督框架来直接学习没见过的分类器,其中语义信息可以作为辅助信息被合并。 [15]利用领域自适应方法来解决已见和未见类之间的域漂移问题。受到一个类别中样本的聚类属性的启发,[46]利用结构化预测方法识别未见类的样本。重要的是我们的方法不在这样的设置中。
##3. Proposed Approach
我们提出了一个ZSL隐含属性字典(LAD)学习过程。设计目标函数有一些动机。首先,隐含属性应该保留语义信息,因此能够关联已见和未见类。 其次,隐含属性空间中的表示应该是有判别性的,以识别不同的类。 基于这些考虑,提出的LAD框架,如图2所示。
###3.1 Problem Formulation
假设有属于 c s c_s cs个已见类的 n s n_s ns个标记样本 Φ s = { X s , A s , Z s } \Phi_s = \{ X_s, A_s, Z_s \} Φs={
Xs,As,Zs},和属于 c u c_u cu个未见类的 n u n_u nu个未标记样本 Φ u = { X u , A u , Z u } \Phi_u = \{ X_u, A_u, Z_u \} Φu={
Xu,Au,Zu}。每个样本 x i x_i xi表示成一个 d d d维的特征向量。然后我们有 X s ∈ R d × n s X_s \in R^{d \times n_s} Xs∈Rd×ns和 X u ∈ R d × n u X_u \in R^{d \times n_u} Xu∈Rd×nu,其中 $ X_s = [x_1, …, x_{n_s}] , , , X_u = [x_1, …, x_{n_u}] 。 。 。 Z_s $ 和 $ Z_u $ 是已见和未见类的样本的类标签。 在零样本识别设置中,已见和未见类是不交叠的:即 $ Z_s \cap Z_u = \varnothing 。 。 。 A_s $ 和 $ A_u $ 是已见和未见类的样本的$ m $ 维的语义表示(即,属性标注),其中 A s ∈ R m × n s A_s \in R^{m \times n_s} As∈Rm×ns 和 A u ∈ R m × n u A_u \in R^{m \times n_u} Au∈Rm×nu。关于已见类的样本的语义信息 A s A_s As 是提供的,而未见类的样本的是未知的。给定类别的语义描述 $ P \in R^{m \times {(c_s + c_u)}} $, ZSL的目标是预测 Z u Z_u Zu。
- X X X是样本特征表示, ∈ R d × n s / n u \in R^{d \times n_s/n_u} ∈Rd×ns/nu, X s X_s Xs已知, X u X_u Xu已知
- A A A是样本语义表示, ∈ R m × n s / n u \in R^{m \times n_s/n_u} ∈Rm×ns/nu, A s A_s As已知, A u A_u Au