Zero-Shot learning

最新推荐文章于 2024-08-24 17:36:51 发布

心絮

最新推荐文章于 2024-08-24 17:36:51 发布

阅读量1w

点赞数 5

本文链接：https://blog.csdn.net/qq_38096703/article/details/80688072

版权

Zero-Shot Learning（ZSL）旨在通过利用类别描述信息，使模型能识别训练集中未出现的新类别。常见模型包括直接属性预测模型（DAP）、ALE模型和SAE模型，它们利用图像特征与类别属性向量进行学习。本文深入探讨了这些模型的工作原理，如属性预测和映射矩阵的学习，并提供了相关数据集的链接。

摘要由CSDN通过智能技术生成

Zero-Shot learning

在传统的分类模型中，为了解决多分类问题（例如三个类别：猫、狗和猪），就需要提供大量的猫、狗和猪的图片用以模型训练，然后给定一张新的图片，就能判定属于猫、狗或猪的其中哪一类。但是对于之前训练图片未出现的类别（例如牛），这个模型便无法将牛识别出来，而ZSL就是为了解决这种问题。在ZSL中，某一类别在训练样本中未出现，但是我们知道这个类别的特征，然后通过语料知识库，便可以将这个类别识别出来。因此，在 ZSL 任务中，在训练集中见过的类别和测试集中没见过的类别是不相交的。

通常而言，见过和没见过的类别都要提供类别描述信息（比如用户定义的属性标注、类别的文本描述、类别名的词向量等）；某些描述信息是各个类别共有的。这些描述信息通常被称为辅助信息或语义表征。

Zero-Shot learning的典型模型

1、直接属性预测模型（DAP）和间接属性预测模型（IAP）。

《Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer》

DAP可以理解为一个三层模型：第一层是原始输入层，例如一张电子图片（可以用像素的方式进行描述）；第二层是p维特征空间，每一维代表一个特征（例如是否有尾巴、是否有毛等等）；第三层是输出层，输出模型对输出样本的类别判断。在第一层和第二层中间，训练p个分类器，用于对一张图片判断是否符合p维特征空间各个维度所对应的特征；在第二层和第三层间，有一个语料知识库，用于保存p维特征空间和输出y的对应关系

简单来讲，就是对输入的每一个属性训练一个分类器，然后将训练得出的模型用于属性的预测，测试时，对测试样本的属性进行预测，再从属性向量空间里面找到和测试样本最接近的类别。

缺点：

算法引入了中间层，核心在于尽可能得判定好每幅图像所对应的特征，而不是直接去预测出类别；因此DAP模型在判定属性时可能会做得很好，但是在预测类别时却不一定；

无法利用新的样本逐步改善分类器的功能；

无法利用额外的属性信息（如Wordnet等)

2、ALE模型

《Label-Embedding for Attribute-Based Classification》

在分类问题中，每个类别被映射到属性空间中，即每个类别可用一个属性向量来表示（例如：熊猫—>（黑眼圈，爱吃竹子，猫科动物......））。ALE模型即学习一个函数F，该函数用于衡量每