Zero-Shot Learning - The Good, the Bad and the Ugly全文翻译(结合原文享用)

Zero-Shot Learning - The Good, the Bad and the Ugly

     原文链接:https://arxiv.org/abs/1703.04394 

     配合享用,翻译有问题的地方请多多指教

Zero-short Learning – 优点,缺点和丑陋

 

摘要

由于zero-shot learning的重要性,最近提出的方法的数量大幅度提升。我们认为是时候后退一步来对这一领域的情况进行一次分析了。这篇文章的主要目的是3-折。第一,鉴于目前还没有统一的ZSL基准,我们首先通过统一评估协议和数据分割来定义一个新的基准。这是一个重要的贡献,因为发表的结果往往是不可比较的,有时甚至是有缺陷的,例如,在ZS测试类进行预训练很明显不符合ZSL。第二,我们深度对比和分析了大量在ZSL和更现实GZSL的设定下达到的SOTA方法。最终,我们讨论了该领域目前状况的局限性,这可以作为推进该领域的基础。

 

介绍

ZSL的目标是识别其样本没在在训练阶段出现过的物体[17,22,23,30,40]。新提出的ZSL方法的数目每年都在大幅度的提升,也就是我们的标题所暗示的好的方面。尽管每一个新的方法都展示了相比之前的进步,但是没有一个既定的评估协议就很难去度量一个进展,即坏的一面。事实上,对数字提升的追求甚至导致了有缺陷的评估协议,即丑陋的方面。因此,在这项工作中,我们建议在几个由小到大规模的数据集上使用相同的评价协议深度地对最近提出的大量zero-shot深度学习方法在zero-shot和generalized zero-shot learning上进行广泛评估。Zero-shot任务中训练和测试类是不相交的。而generalized zero-shot learning训练的类在测试的时候也出现了。

我们从方法、数据集和评价协议三个方面对ZSL进行了基准和系统的评价。所有ZSL方法的关键是将可观察和不可观察的类通过一些辅助信息的形式连接起来,这些辅助信息能够将物体的视觉识别属性(visually distinguishing properties)进行编码。在我们的工作中评估的ZSL方法的不同特色是线性[11,2,4,32]和非线性[39,34]的兼容性学习框架(compatibility learning frameworks)而正交方向(an orthogonal direction)是学习独立属性(independent attribute)[22]分类器,最后其他人[42,7,26]提出一个独立分类器学习(independent classifier learning)和兼容性学习框架(compatibility learning framework)的混合模型(a hybrid model)。

我们通过使用几个从小规模到大规模数据集[28,38,22,10,9]的多重划分对ZSL的第二个方面进行了彻底的评估。我们强调,对于需要专家意见才能识别的细粒度的(fine-grained)罕见物体类别很难获取有标注的训练数据。因此,我们认为ZSL方法应该主要在最少数量或稀有的类别上检测。

我们提出了一个统一的评估政策来解决ZSL可以说是最重要的第三方面。我们强调了在与训练类分离的验证类上对方法超参数进行调优的必要性,因为通过调优测试类的参数来提高ZSL性能违背了ZSL假设。我们认为,当数据集中各个类的图像数量不平衡时,每个类的平均top-1精度是一个重要的评估指标。我们指出,通过深度神经网络(DNN)的在包含了Zero-shot测试类的大规模数据上的预训练来提取图片特征,这种图片特征提取是训练过程的一部分的设定也是违反了ZSL的定义的。此外,我们认为在小范围和粗粒度数据集上显示ZSL性能,即aPY[10]并不是决定性的。我们建议通过在搜索空间中加入训练类,即广义的零样本学习(generalized zero-shot learning)设置,来抽象出ZSL的局限性(the restricted nature),使任务更加实用。因此,我们认为我们的工作通过分析ZSL任务的the good和the bad以及提出消除the ugly ones的方法来使得ZSL领域得以进一步发展。

 

相关工作

我们对ZSL和GZSL的相关工作进行了回顾,我们对同一个任务提出之前的评价,并描述我们工作的独特的一面。

Zero-shot Learning

在ZSL的设定下的测试和训练类是不相交的[17,22,23,30,40],我们可以通过解决相关的子问题来解决这个问题。比如,学习中间属性分类器(intermediate attribute classifiers)[22,30,31]和学习一个可见类比例的混合(a mixture of seen class proportions)[42,43,26,7],或者通过一个直接的方法,比如,兼容性学习框架[3,4,11,15,27,32,34,39,32,12,29,1,6,24,13,21]. 在这些方法中,在我们的测评中,我们选择DAP[22]作为ZSL研究中最基本的方法,CONSE[26]用来作为最被广泛使用的学习一个类比例混合(mixture of class proportions)的表示;SSE[42]作为一个有着公共实现(public implementation)的新方法;SJE[4],ALE[3],DEVISE[11] 作为一个近期出现的具有相似损失函数的兼容学习方法;ESZSL[32] 将正则化项加入到非正则化兼容学习方法中;[39]和CMT[34]提出了对双线性兼容性学习框架的非线性扩展,最终SYNC[7]在几个基准数据集上报告了SOTA表现。

Generalized Zero-shot Learning

这个设定[33]将ZSL的任务泛化到了seen和unseen classes同时出现在测试阶段。[19]认为尽管ImageNer分类挑战的表现已经超过了人类的水准,但是我们没有观察到在检测挑战中竞争的方法的类似行为,该挑战包括在检测已知对象的位置和标签时拒绝未知对象(rejecting unknown objects)。[11]使用了标签嵌入(label embedding)来应对GZSL的设定,而[41]提出通过映射的联合嵌入(factorized joint embeddings)的耦合线性回归(coupled linear regression)来学习图片和类的隐表示(latent representations)。另一方面,[5]在深度网络中引入了一个新的模型层,它可以实时检测输入来自未知类的概率,[34]提出了一种新颖的检测机制。我们评估了[34]和[11]是最广泛使用的。

Previous Evaluations of Zero-shot Learning

在文献中存在一些ZSL vs GZSL的工作[30,8]。在这些工作中,[30]提出话了一个用来学习图片和语义嵌入(semantic embeddings)之间的相似度的模型,选择使用IImageNet 1K中的800类用来训练200类用来测试。[8]提供了在三个数据集(包括ImageNet)上用三种标准分割法评价的五种方法之间的比较,并提出了一种评价GZSL性能的度量。

Our work

我们评估了5个数据集上的10种ZSL方法,包括ZSL和GZSL的设置,提供了统计意义(statistical significancy )和鲁棒性测试(robustness tests),并提供了从我们的基准中得出的其他有价值的见解。从这个意义上说,我们的评价比以前的工作更广泛。

 

评测方法

我们首先形式化ZSL任务,然后描述在我们这项工作中评估的ZSL方法。给定一个集合

S = {(xn , yn ), n = 1...N } ,其中yn ∈ Y tr 属于训练类,这个任务是学习f : X → Y ,而函数f是通过最小化正则化的风险(minimizing the regularized empirical risk):

 

其中是损失函数,是正则项。这里,从输入到输出嵌入的映射关系f : X → Y 被定义为:

在测试阶段中,在ZSL的设定下,目标是为了给一个测试的图片分配一个unseen class的标签,即,而在GZSL的设定下,测试的图片可以被分配seen或unseen classes中的一个,即有着最高的兼容性得分。

3.1 Learning Linear Compatibility 学习线性兼容性

Attribute Label Embedding (ALE) [3], Deep Visual Se- mantic Embedding (DEVISE) [11] and Structured Joint Embedding (SJE) [4] 使用了bi-linear兼容性函数来联系重要的和辅助的信息:

其中即图和类嵌入,两者都是给定的。是通过映射W来参数化从而被学到的。Embarassingly Simple Zero Shot Learning (ESZSL) [32] 给物体添加了一个正则项。接下来,我们为这四个ZSL方法提供了一个统一的公式。

DEVISE[11]使用了基于非正则化排序SVM[20]的对级的排列目标:

ALE[2]使用了权重估计排序目标[37]:

其中并且被定义为:

遵循[18]中的启发式,[3]选择将重点放在排名的首位。

 

SJE[4] 给予排名列表的顶部充分的权重,并从结构化的支持向量机[36]收到启发:

ESZSL[32] 将下列正则化项添加到非正则化风险最小化公式:

其中是正则项的参数。

3.2 Learning Nonlinear Compatibility  学习非线性兼容性

Latent Embeddings (LATEM) [39] and Cross Modal Transfer (CMT) [34]在兼容性学习框架中将一个额外的非线性编码。

LATEM[39] 构造了一个分段(piece-wise)的线性兼容:

其中每一个对数据的不同的视觉特征建模,选择哪个矩阵来进行映射是一个潜在的变量。LATEM使用了等式4的排序损失(ranking loss)。

CMT[34] 第一次将图片映射到一个单词的语义空间中,即类名,其中一个带有tanh非线性函数的神经网络来学习这个映射关系“

其中是两层神经网络的权重。然后是一个新颖性检测机制,它将图像分配给不可见或可见的类。利用所观察类的嵌入图像学习阈值(thresholds),或用无监督的方法获得离群概率(outlier probabilities),从而检测出目标的新颖性。

 

3.3 Learning Intermediate Attribute Classifiers 学习中间属性的分类器

尽管Direct Attribute Prediction (DAP) [22] 相比于兼容性学习框架已经表现出薄弱的表现,我们将其纳入我们的评价,因为它是历史上在文献中使用最广泛的方法之一。

DAP[22] 学习概率属性(probabilistic attibute)分类器,并通过合并学习到的属性分类器的成绩来并且做类的预测。一个新的图片可以被分配给unknown classes中的一个,期间使用以下公式:

其中是属性的总数,我们训练了one-vs-rest的带有log loss的SVM,其中log loss给出了与训练类相关的属性的概率成绩。

3.4 Hybrid Models 混合模型

Semantic Similarity Embedding (SSE) [42], Convex Combination of Semantic Embeddings (CONSE) [26] and Synthesized Classifiers (SYNC) [7] 将图像和语义类嵌入作为一个seen class proportions的混合,因此我们将其归类为混合模型。

SSE[42] 在图像和语义嵌入空间中利用了类似的类关系(similar class relationships)。一个图像被标记为:

其中是在同一个空间中的类的映射和图片的嵌入。具体来说,是通过稀疏编码完成学习的,是通过类独立的相关转换完成学习的。

CONSE[26] 学习了一个属于训练类的训练图像的概率:

其中表示对于图像最可能的训练标签(t=1)。语义嵌入的合并被用来给unknown的图片来分配一个unseen class:

其中表示图像第t可能的标签,控制着语义嵌入向量的最大数目。

SYNC[7] 学习了在语义类嵌入空间和模型空间的映射关系。在这个模型空间中,训练类和一组phantom类构成一个加权的二部图。目标是最小化失真误差:

语义和模型空间通过真实嵌入()和phantom类()在权重图()完成了对齐。

 

数据集和评测策略

在这一节中,我们提供了先前使用的几个组件和ZSL及GZSL的评估协议,例如数据集、图像和类编码以及评估协议。

4.1数据集统计

在最广泛使用的ZSL数据集中,我们选择了两个粗粒度的(一个小的和一个中等规模的)和两个细粒度的(都是中等规模的)有属性的数据集和一个没有属性的大数据集。在这里,我们认为图像数量在10K和1M之间,类的数量在100和1K之间为中等规模。

Attribute Dataset. 属性数据集

属性数据集的数据统计在表一中展示。Attribute Pascal and Yahoo (aPY) [10] 是一个小规模的有着64个属性的粗粒度数据集。在一共32个类别中,20个Pascal类被用来训练(我们随便选5个来进行验证)且12个Yahoo类被用来测试。Animals with Attributes (AWA) [22] 是一个粗粒度的数据集,从图像数量来看是中等规模的,即30475张; 从类数量来看是小规模的,即50个。[22]引入了一个标准的zero-shot split,包含40个用于训练的类(我们随机选择13个用于验证)和10个用于测试的类。AWA有85个属性。Caltech-UCSD-Birds 200-2011(CUB)[38]是一个细粒度和中等规模的数据集(包括图像的数量和类的数量)即来自200个不同类型的鸟类的11,788张图像,注释了312个属性。[3]通过150个训练类(50个训练班)和50个训练班引入了幼仔的第一次零击分裂。SUN[28]是一个在图像数量和类数量方面都是细粒度和中等规模的数据集,即SUN包含14340个图,来自717种类型的场景,注释了102个属性。在[22]之后,我们使用645个SUN的类进行训练(我们随机选择65个用于验证), 72个用于测试。

Large-Scale ImageNet

我们也评估了方法在大型ImageNet[9]上的性能。共有21K个类中,使用1K个类训练(我们使用200类验证)和测试所有剩下的21K个类或它的一个子集, 例如我们确定这些子集基于类和类总体之间的层次距离(the hierarchical distance)。

4.2 Proposes Evaluation Protocol 提出的评价策略

我们提出了针对图像和类嵌入(class embeddings)、数据集分割(dataset splits)和评估标准(evaluation criteria)的统一协议。

Image and Class Embedding.

我们为SUN、CUB、AWA和ImageNet从整个图像中提取图像特征,不进行图像预处理。对于aPY,正如[10]中提出的,我们从边界框(bounding box)中提取图像特征。我们的图像嵌入是101层ResNet[16]的2048-dim顶层池单元,因为我们发现它比GoogleNet[35]的1024 -dim顶层池单元(top layer pooling units)表现更好。ResNet是在ImageNet 1K上预训练的,没有经过微调。除了ResNet特性外,我们还根据已发布的图像特性对方法进行评估。作为类嵌入,对于aPY、AWA、CUB和SUN,我们使用每个类的属性。对于ImageNet,我们使用由[7]提供的Word2Vec[25],因为它不包含所有类的属性注释。

Dataset Splits

ZSL假设训练类和测试类是不相交的,其中训练类的图片在训练阶段会出现,而所有来自测试类的图片在训练阶段不会出现。另一方面,随着深度神经网络(DNN)对提取图片特征的训练是模型训练的一部分,因此用于训练DNN的数据集(如ImageNet)不应该包含任何测试类。然而,我们注意到从aPY和AWA的数据集的标准分裂(standard split 即SS),从12个类别中选出7个aPY的测试类(猴、狼、斑马、杯子、建筑,袋,马车),从10个AWA的类别中分出6个测试类的(黑猩猩,大熊猫、豹、波斯猫,猪,河马),这些测试类都在ImageNet中的1K个类中却用来预训练ResNet。另一方面,最广泛使用的分割split,即我们称之为标准劈叉(SS),来自[22]的SUN和来自[2]的CUB给我们展示了50个测试类(Indigo Bunting)中的1个CUB测试类和72个中的6个SUN测试类(estaurant, supermarket, planetarium, tent, market, bridge)也都存在于ImageNet的1K个类中。我们注意到在这些出现了重合数据(oberlapping)的所有方法的准确率都高于其他的。因此,我们提出一个新的数据划分,即预先提出后的splits(proposed splits,PS),确定没有任何一个测试类出现在ImageNet 1K中,即用来训练ResNet模型。我们在表一提出了在standard splits(SS)和proposed splits(PS)的区别。 在SS和PS中,测试类中的图片不会出现在训练阶段,在测试阶段SS不包括任何一个来自训练集的图片,然而PS是包含的。我们这样设计PS是因为在测试阶段同时测试训练类和测试类对于展示方法的广义性(generlization)是非常重要的。

ImageNet有着几千个类,所以有着构建很多zeroo-shot评估划分的可能。遵循[7],我们的前两个标准划分根据ImageNet标签层次结构考虑了与原始1K类相距2跳(2-hop)和3跳(3-hop)的所有类,分别对应于1509和7678类。这种划分根据类之间的层次和语义相似性来衡量模型的泛化能力。我们提出的分割方法考虑了ImageNet剩下的21K类中数量最多的500、1K和5K类,平均每类有≈1756、≈1624和≈1335个图像。类似地,我们考虑ImageNet中500、1K和5K三个最少的类,它们对应于ImageNet的大多数细粒度子集,平均每个类有≈1、≈3和≈51个图像。我们最后的分割考虑了ImageNet所有剩下的≈20K类,每个类至少有一个图像,平均每个类有631个图像。

Evaluation Criteria

单标签图像分类精度采用Top-1精度进行测量,即当预测的类别是正确的类别时,预测是准确的。如果对所有图像求精度的平均值,在数量较多的类更容易获得高性能。然而,我们感兴趣的是在稀疏的类上也有高性能。因此,我们对每个类别的正确预测分别求平均值,然后再除以它们的累积和,也就是类的总数。即我们测量每个类top-1的平均准确性。

在GZSL的设定下,在evaluation阶段的搜索空间时候不仅仅只有test classes的,而是包含了训练类,因此这个设定更加现实!与我们在测试时提出的分割方法一样,我们可以访问一些来自训练类的图像,在计算了训练类和测试类每个班的top-1的平均精度后,我们计算了训练类和测试类的调和平均值:

其中表示分别来自于seen类和unseen类的图片。我们选择调和平均数作为评价指标,而不是算术平均数,因为在算术平均数中,如果被观察类的精度高得多,它会显著地影响整体结果。相反,我们的目标是在可见类和不可见类上都具有较高的准确性。

 

实验

我们首先提供了ZSL在属性数据集SUN,CUB,AWA和aPY上的结果,然后给出了在大规模的ImageNet数据集上的结果。最后,我们给出了GZSL的结果。

5.1 Zero-shot Learning Results 零样本学习结果

在属性数据集上,即SUN,CUB,AWA和aPY,我们首先用他们的评测方案复现了每一个方法,然后用我们提出的分割方案来使用相同的train/val/test的类分割,在这个基础上完成了统一的评测策略。我们还测量了不同方法在参数调整(parameter tuning)上的鲁棒性和对不同方法ranking的可视化。最后,我们在大规模的ImageNet数据集上测试所有的方法。

 

Reproducing Results

对于完整性检查,我们使用开源的特征和代码重新检测了方法[22,42,39,4,32,7]。我们选择SUN和AWA分别作为两个在文献中已经大规模使用的细粒度(fine-grained)和非细粒度的代表性数据集。我们从表2中的结果观察到我们复现的结果和DAP,SYNC报告的结果都和他们论文中的结果保持一致。对于LATEM,我们得到的结果略有不同,这可以用非凸性和对初始化的敏感性来解释。类似地,SJE在SGD中的随机抽样可能会导致稍微不同的结果。ESZSL有一定的方差,因为它的算法在每次运行时随机选择一个验证集,这导致了不同的超参数。以下是SSE[42]结果中值得注意的观察结果。发布的代码已经硬编码(hard-coded)了在aPY上的超参数,即迭代次数、用来训练支持向量机的数据量,和一个造成结果不如这里的调整参数γ,因此,我们在验证集上设置这些参数。在SUN上,SSE使用了10个类(而不是72个),我们使用验证参数的结果得到了0.5%的提升,这可能是训练图像的随机采样造成的。在AWA上,我们的复现结果为64.9%,明显低于报道的结果(76.3%)。然而,即使对测试集进行参数调整,我们也无法得到报告的结果,即在本例中我们获得了73.8%。

 

Reproduced Results vs Standard Split(SS)

除了[22,42,39,4,32,7,34]外,我们在原论文的基础上重新拓展[26,11,3]。我们使用表1中提供的训练、验证和测试分割,并在报告表3中展示了使用深度ResNet的结果。DAP[22]使用人为标注的图像特征,因此这些特征的复现结果明显低于深度特征(22.1% vs 38.9%)。当我们对结果进行详细调查时,我们注意到SUN上报告的结果有两个不正常的地方。首先,SSE[42]和ESZSL[32]报告了包含10个类的测试拆分结果,而SUN的标准拆分(SS)包含72个测试拆分(SSE[42]的74.5% vs 54.5%, ESZSL[32]的64.3% vs 57.3%)。第二,在仔细检查并与SYNC[7]的通讯作者后,我们发现,SUN特征是用一个MIT Places[44]预训练模型提取的。由于MIT将数据集与SUN数据集的训练类和测试类相交叉,因此与ImageNet的预训练模型(62.8% vs 59.1%)相比,它自然而然的会获得更好的结果。

Results on Standard (SS) and Proposed Splits (PS).

我们建议使用新的数据集分割(参见第4节中的详细信息),以确保测试类不属于用于预训练ResNet的ImageNet1K。我们将这些结果(PS)与之前发表的标准分割(SS)结果在表3中进行比较。我们的第一个观察结果是,对于AWA, PS的结果明显低于SS。这是符合预期的,因为SS中的大多数测试类都在ImageNet 1K中。另一方面,对于细粒度数据集CUB和SUN,结果没有显著影响。我们对方法排名的第二个观察如下,在SS上,SYNC[7]是在SUN(59.1%)和aPY(39.7%)数据集上表现最好的方法,而SJE[4]在CUB(55.3%)数据集上表现最好,ALE[3]在AWA(78.6%)数据集上表现最好。在PS方面,ALE[3]在SUN上表现最好(58.1%),在CUB上SYNC[7](55.6%),在AWA上SJE[4](65.6%),在aPY上DEVICE[11](39.8%)分别是最佳结果。请注意,ALE、SJE和design都使用了max-margin的双线性兼容学习框架。

Robustness

我们评估了10个方法对参数的稳健性,通过在3个不同的验证分割上设置它们,同时保持测试分割的完整性。我们报告SS(图2,上)和PS(图2,下)的结果。在SUN和CUB上,不同方法和不同分割的结果都是稳定的。这是符合预期的,因为这些数据集在类之间平衡了图像的数量,并且由于它们的细粒度特性,验证分割是类似的。另一方面,AWA和aPY是小而粗粒度的数据集,存在一些问题。首先,许多关于AWA和aPY的测试类包含在ImageNet1K中。其次类间的数据没有很好地协调,即不同的验证类分割包含了非常不同数量的图像。第三,类嵌入彼此之间距离很远,即对象在语义上是不同的,因此不同的验证分割学习图像和类之间的不同映射。

Visualizing Method Ranking

我们使用非参数Friedman测试[14]对10种方法的每类top-1的准确性进行排名,该测试不假设性能上的分布,而是使用算法排名。图1中秩矩阵的每一项都表示该方法在第1到第10位的次数。然后我们计算每种方法的平均秩,并在此基础上对它们进行排序。我们的一般观察是,在标准split (SS)上排名最高的方法是SYNC,而在proposed split (PS)上是ALE。这些结果表明了zero-shot的数据划分的重要性。在proposed split中,排名最高的三种方法是compatibility learning methods,分别是ALE、计算方法和SJE,而排名最低的三种方法是attribute classifier learning或者hybrid methods,分别是DAP、CMT和CONSE。因此,与学习独立的分类器相比,max-margin兼容学习方法在ZSL学习任务中始终能取得更好的效果。

Results on ImageNet

ImageNet将这些方法扩展到真正大规模的环境中,因此这些实验为如何从实践的角度解决ZSL问题提供了进一步的见解。在这里,我们评估了8种方法。我们排除了DAP,因为所有的ImageNet类和SSE的属性均因其public implementation存在可伸缩性问题而不可用。表4显示,最好的执行方法是SYNC[7],这可能表明它在大规模的设置中能够良好执行,或者由于使用Word2Vec而不是属性,它可以在不确定的情况下学习。另一种可能性是Word2Vec可能为SYNC调优,因为它是由相同的作者提供的,然而,做出一个强有力的声明需要对类嵌入进行全面的评估,这超出了本文的范围。我们对所有方法观察发现,在样本最多的类中,结果比数量最少的类好,这表明细粒度的子集更困难。我们一直观察到,在1K到5K之间,最密集的类的准确率下降了很多,预计5K包含了≈6.6M的图像,这使得问题比1K(≈1624图像)更困难。另一方面,所有的20K结果对于所有的方法来说都是糟糕的,这表明了这个问题的难度,同时也说明其有着有很大的提升空间。

5.2 Generalized Zero-Shot Learning Results 广义零样本学习结果

在实际应用中,图片分类系统不能预先判断一个图片是否属于一个seen class还是unseen class。因此,GZSL从实用的角度来看是非常有趣的,我们在这里使用了在ZSL设置下的相同的模型完成PS。我们对同时进行测试,即使用来自的预先held-out的图片。

如表5所示,因为训练类也包括在搜索空间中,所以GZSL的的结果明显比ZSL的结果要低。另一个有意思的现象是兼容性学习框架即ALE,DEVISE,SJE在测试类中表现很好。然而,用来学习独立属性或者物体分类的方法即DAP和CONSE在训练类上表现很好。由于这种差异性,我们测验了用训练类和测试类的准确率的调和平均(harmonic mean)。在SUN、CUB和AWA数据集上,H 的测试结果上ALE表现最佳,而在aPY数据集上,CMT*表现最佳。注意,CMT*有一个集成的新颖性检测阶段,该方法在此阶段接收另一个监控信号,以确定图像是否属于训练或测试类。综上所述,广义的零样本学习设置为零样本学习方法的性能提供了一个新的层次。我们得出的结论是,训练类的准确性与现实世界中测试类的准确性同样重要。因此,方法的设计应该能够在训练类和测试类中很好地预测标签。

Visualizing Method Ranking.

类似于前面章节的分析,我们分别在训练类、测试类的top-1准确率已经他们两者的调和平均对这11种方法进行了排序,通过对测试类进行评估得到的秩矩阵,即图3左上角,排名最高的5个方法与图1相同,即ALE、DEVISE、SJE、LATEM、ESZSL,但总体绝对值较低。通过求调和平均值得到的秩矩阵,即图3的底图,排名最高的3种方法与图1相同,即ALE、DEVISE、SJE。通过对训练类求值得到的秩矩阵,即图3右上角,我们的观察结果与图1不同。ALE排名第三,但是其他排名最高的方法在这个排名列表的底部。这些结果清楚地表明,在评价ZSL时,不仅要优化测试类的精度,还要优化训练类的精度。从图3中我们最后观察到,CMT*在所有情况下都比CMT好,这支持了简单的新颖性检测方案有助于改进结果的观点。

结论

我们的工作中,我们在几个数据集上使用了统一的测试策略在ZSL和GZSL中测试了大量的SOTA水准的模型。我们的评估表明,兼容性学习框架相对于学习独立对象或属性分类器以及混合模型具有优势。我们发现一些标准的ZSL分割(SS)可以处理与训练阶段不相交的特征学习,并据此提出了新的数据集分割(PS)。此外,训练类和验证类的不相交是ZSL设定中参数调整的必要组成部分。在评价方法的同时,在搜索空间中加入训练类,即GZSL,为未来的研究提供了一个有趣的平台。综上所述,我们的工作广泛地评估了ZSL的优点(the good)和缺点(the bad),同时对丑陋的地方(the ugly ones)进行了清理。

 

 

发布了31 篇原创文章 · 获赞 14 · 访问量 2万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览