零样本图像分类综述

最新推荐文章于 2024-08-23 18:28:54 发布

big_matster

最新推荐文章于 2024-08-23 18:28:54 发布

阅读量2.6k

点赞数 2

分类专栏：研究领域探讨文章标签：分类人工智能

本文链接：https://blog.csdn.net/kuxingseng123/article/details/127868313

版权

研究领域探讨专栏收录该内容

12 篇文章 1 订阅

订阅专栏

本文详细综述了零样本图像分类技术的发展历程，从其研究意义、发展现状到数据集评价标准，以及与传统分类技术的区别和联系。零样本分类依赖于辅助信息进行跨模态学习，利用深度学习和语义表征，解决类别标签缺失的问题。近年来，词向量和无监督类别语义表征成为研究热点，但依然面临挑战。未来，该领域将继续探索更高效的学习方法和语义表示。

摘要由CSDN通过智能技术生成

零样本图像分类综述

摘要

零样本图像分类指训练集和测试集在数据的类别上没有交集的情况下进行图像分类，该技术是解决类别标签缺失问题的一种有效手段，因此受到了日益广泛的关注，自提出问题至今。零样本图像分类研究已经大致有十年时间啦。本文系统对过去十年中零样本图像分类技术的研究进展进行了综述，主要包括以下四个方面，首先介绍零样本图像分类技术的研究意义及其应用价值，然后重新总结和归纳零样本图像分类的发展过程和研究现状，接下来介绍常用的数据集合评价准则，以及与零样本学习技术相关的区别合联系，最后分析有待深入研究的热点和难点问题，并对未来的发展趋势进行了展望。

零样本图像分类的研究意义及其应用价值。
零样本图像分类的发展过程和研究现状
数据集合评价准则
零样本技术相关的区别和联系
研究的热点和难点问题
未来发展进行了展望

意义

零样本分类（zero-classification ZSC),也称作零样本学习，指依据一些可见类别的数据****，辅助以相关常识信息或先验知识（称辅助信息side information),用于训练某种学习模型，实现对未见类别（数据标注完全缺失的类别）的数据进行类别预测和识别一类技术。在这种分类场景下，训练集合和测试集合的类别是不相交的，这显著有别于传统的分类任务，如下图所示，其中 $y$ 和 $z$ 分别表示训练样本和测试样本， $Y$ 和 $Z$ 分别表示训练数据和测试数据所属类别，零样本分类中的测试样本所属的类别和训练数据所属的类别是不相交的，而传统的目标分类任务中测试样本所属的类别包含于训练类别的集合。
关键词：可见类别的数据、辅助信息、未见类别的数据、
在这里插入图片描述

现有的物体分类技术大多属于监督学习，即需要大量标注数据训练相关模型，据统计，人类可识别的物体种类大约有3万类，要对如此之多的数据类别进行数据标注是一件极其费力的数据工作，此外，现实世界中物体的种类还在不断增长，这需要识别系统不断增加新的数据并重新训练，这些问题严重阻碍了相关技术的进一步发展，人们迫切需要有一种在目标类别的视觉标注数据完全缺失情况下，仍然能够识别这些类别数据的技术，受到现实需求以及技术不断发展的双重驱动，零样本分类技术应运而生。

识别目标类别的视觉标注数据完全缺失情况下。

与传统的分类技术不同**，零样本分类技术很大程度上受到了人类学习过程的启发**，在学习机理上，与传统分类技术的不同，决定了零样本分类必须走一条继承和发展的研究道路。在2016年，中国计算机大会上，谭铁牛院士指出**，生物启发模式识别是一个非常值得关注的研究方向，比如或人识别一个动物（并不需要看到过该动物），只需要一句话的描述就能识别该动物。例如：假设从一个小孩从未见过斑马**（斑马对小孩来说是未见类），但其知道斑马是一种身上有黑白条纹的外形像马的动物（马对于小孩来说是可见类），那么当其第一次看到斑马的时候，一定能认出这是斑马，这样一个类似的触类旁通的学习过程可以总结为已有学习模型（认识马）+常识或先验（知道斑马是身上有黑白条纹的外形像马的动物）+进行演绎推断（识别斑马）的过程。这正式零样本分类的思想核心，即利用常识或先验知识进行演绎推理。
零样本分类是目标分类技术发展的必然趋势之一，一方面，传统需要大量标注样本进行学习模式的不足迫使新的需要较少甚至无需标注样本技术的发展。另一方面，计算机视觉和机器学习等技术的发展在技术层面促进了零样本分类的产生和发展，为此，学者们在2003年前提出了单样本学习概念，目的是仅利用一个或少量标注的样本对学习模型进行训练。进一步，在2008年之前，又提出了零样本学习技术，目的是研究某些类别标注完全缺失的情况，零样本分类可以看作视觉数据与文本等其他模态数据间一种跨模态学习。这与人类的学习过程类似，我们即不是从海量的图像或者视频数据集中学习相关类别的概念，也不是从海量语料库中学习语言（语义），而是从视觉和语言（语义）的交互中理解了世间万物，零样本分类的技术目前正处于高速发展时期，所涉及的具体应用已经从最初的图像分类任务扩展到其他计算机视觉任务。乃至自然语言处理等多个相关领域。对此，本文将其称为广义零样本分类，相应地，我们将针对图像分类任务的零样本分类任务称为侠义零样本分类，需要指出的是，由于本文聚焦于讨论侠义零样本分类技术，如无特殊说明，后文中出现的零样本分类均表示侠义零样本分类，即零样本图像分类。

从理论体系和从属关系来看，零样本分类属于迁移学习领域的一个子任务，迁移学习额主要目的是将源域和源任务中的知识迁移到目标域中用于帮助目标任务进行学习。对于零样本分类任务，可见类和未见类数据可以分别视为来自源域和目标域，因此，零样本分类可以看作是迁移学习的一种特殊应用，另一方面，从模型实现的角度来看，零样本分类的实现和另外2个研究领域密不可分，其一是表征学习，其二是度量学习。要建立一个好的机器学习模型首先离不开优秀的数据表征能力，表征学习是指通过对数据进行变换从而提取数据中有效信息的一种学习方式。涉及到人工智能的诸多领域。如语音识别、信号处理、目标识别、自然语言处理以及迁移学习等。就零样本分类任务而言，目前最主流的学习方式是利用嵌入模型，即将多个模型的数据嵌入到同一语义空间中进行数据表征，其本质可以视为一种以语义表示为核心的表征学习过程。
度量学习通常建立在表征学习之上，其本质是根据不同的任务，根据特定空间中的数据自主学习出针对某个特定任务距离度量的函数。目前已经被广泛应用于诸多计算机视觉相关学习任务，如人脸识别、图像检索、目标跟踪、多模态匹配等。对于零样本分类任务，在获取到合适的数据表征空间之后，则需要对跨膜态的样本间的距离度量进行学习。目的是保证嵌入到语义空间后样本间的语义相似度关系得以保持。因此，两样本分类又可以看作在不同域中度量学习的过程。综上所述，零样本学习可以看作在进行表征学习和度量学习的基础上，通过借助辅助信息，实现跨膜态知识迁移，从而完成可见类信息到未件类信息推断的迁移学习过程。
关键概念：
在进行表征学习和度量学习的基础上，通过借助辅助信息，实现跨膜态知识迁移。

发展及现状分析

零样本的分类是目标分类研究方向的一个分支，其提出经历了从传统的目标分类到单样本学习，在到零样本分类这几个阶段。如图2所示，图中的不同形状代表不同类别， $y$ 和 $z$ 分别表示训练类别集合和测试类别集合，传统的目标分类（每个训练类别由大量的标注样本）和单样本学习（每一个训练类别只有一个或少量的标注样本）中测试类别集合属于训练类别集合。即测试样本一定属于训练阶段出现过的类别，而开集零样本分类中，训练类别集合包含于测试类别集合，即测试样本即可能属于已经训练过的类别也可能属于未训练过的类别，零样本分类处理的对象包括：图像、文本和音频等。本文只介绍零样本图像分类技术。

对于现阶段零样本图像分类任务，成功的关键在于对视觉和语义这种模态进行跨膜态映射关系的学习，从视觉特征和类别语义表征技术演进的时间角度来看，本文将零样本分类技术的发展大致划分两个阶段，第1阶段可以称为提出阶段，时间区间大致为2008年—2012年，这个阶段主流研究思路是利用浅层视觉特征+属性+传统机器学习的分析模式。第2阶段又称为发展阶段，时间区间大致为2013年—2019年，这个阶段主流研究思路是利用深度视觉特征+属性/词向量+传统机器学习方法的分析模式，这两个阶段总共经历了大约10年时间，在此期间出现一些具有代表性的方法正式本文所要综述的重点内容，
在这里插入图片描述

零样本技术提出阶段

零样本技术提出阶段大致在2008年—2012年间，主流研究思路是低层视觉特征+属性+传统机器学习方法的分析模式，零样本分类提出在很大程度上受到了人类学习过程的启发，人类能够根据类别的描述对未见类别样本进行推断和预测，受此启发，零样本分类通过可见类数据建立视觉特征和类别描述之间的语义关系。借助常识或先验将知识从可见类别转移到未见类别。以实现对未见类别样本的推断和预测。其概念在2008年Larochelle等首次提出，其主要贡献在于将零样本分类公式化，并利用实验验证了零样本分类在字符识别和多任务排序问题中可行性和有效性。

最后在2009年涌现出具有三个代表性的工作，其中等人的工作，首次提出了利用类别的语义描述对未知类别进行推断。并在PAC框架下，探索了能对未见类别正确预测的条件，Farhadi等，首次将识别问题转化为属性描述问题，并针对如何预测和分类未知类别的样本的问题进行了研究和探讨。其中属性作为一种先验知识能够对特定类别的物体进行类别语义表征。其具有如下几个特点：

类别的一些特性
可命名（如颜色、部位、习性等）
具有判别性
可以通过视觉样本进行学习，属性特征可以通过认为定义，或者同通过属性学习的方法等多种途径获得。

这一阶段**，属性作为对类别进行类别语义表征的主要方式，为视觉和语义，以及语义之间的关系建立了桥梁**，也是零样本分类技术得以提出的一个重要驱动因素。

零样本分类技术发展阶段

零样本分类技术大致发展致2013年至今，主流研究思路是利用深度视觉特征+属性/词向量+传统机器学习方法等分析模式。在这一阶段，受益于深度学习技术的发展，特别是2012年卷积神经网络模型AlexNet，和2013年神经语言模型Word2Vec的提出，零样本分类技术得到了较快地发展。
在视觉特征提取方面，零样本分类中使用视觉特征大多使用CNN提取的深度视觉特征或其改进。
在类别的类别语义表征方面，除属性学习方式之外，越来越多的学者尝试在无监督信息条件下进行类别语义表征学习。这主要因为通过属性学习进行类别语义表征方式有着诸多局限性。

属性学习需要对类别进行属性标注作为监督信息。但属性标注需要较强的专业知识和较高的成本。属性标注质量对模型分类性能也会产生较大影响。
属性标注一般是针对特定数据集的，这意味着想要通过属性学习实现跨数据集的零样本分类，几乎不可能的。因此，在这一阶段，无监督信息的类别语义表征成了新的研究热点。其中最重要的是当属Mikolov提出来的词向量技术，作为一种新的包含常识性语义关系信息的语义表征技术，词向量自从提出至今备受学界关注并得到广泛使用，词向量指利用自然语言处理技术将文本表示为语义向量的一类技术总称。常用的方法包括：CBOW、Skip-gram、GloVe。当基于神经语言模型的方法，这类方法能够从大型语料库中自动将单词或句子生成具有语义信息的向量表征。
除了词向量技术，也有学者开始尝试其他无监督类别语义表征方法，如Reed等使用文本描述进行类别语义表征，Karessdi等首次使用人眼关注区域进行类别语义表征，值得关注的是，受溢于深度学习技术快速发展，零样本分类技术的视觉特征的快速提取能力和类别语义表征能力均得到了显著提高。但是目前大多数性能较好的零样本分类算法的分类模型使用传统机器学习方法。

零样本分类技术的体系梳理

现阶段零样本分类模型都是建立在引入语义辅助信息的基础之上的，其一是语义辅助信息，其二是零样本分类方法。

用于零样本的语义辅助信息

零样本分类需要借助辅助语义信息构建语义空间，建立视觉模态和语义模态交互关系。其中辅助语义信息可以分为人工定义辅助信息和基于学习的辅助信息两大类。接下来，本文将分别从这两大类角度对零样本分类的辅助信息进行介绍：
在这里插入图片描述

人工定义辅助信息

人工定义辅助信息需要依靠人的领域先验知识，手动设计辅助信息的每一维度，使用人工定义辅助信息构建语义空间的方法，主要分为**：基于属性的方法和非属性的方法**。使用属性特征构建语义空间是零样本学习的主流方法之一。
属性是指一个类或对象具有的某种特性，其某一维度是对某一物体例如**：形状、颜色、大小等的描述。是一种更高层次的特征表示。在属性学习领域，根据属性描述方式的不同，图像属性大致可以分为3类，专家定义的属性、相对属性、非人工标注的属性。具体到零样本分类任务中，常用的属性特征分为二值属性和连续属性。二值属性是指若该类或对象具有该种属性，则该维度为1，否则为0。连续属性是指为进一步表示该类或对象具有该种属性的可能性大小**而进行的实值表示。

零样本分类任务中，非属性的辅助信息则是以构建文本关键词为空间的方法代表，该类方法首先以类别名称作为索引搜集某类别的文本描述。然后利用IF-IDF等自然语言处理方法提取关键词并将关键词语义信息的维度。主要应用于鸟类。花类等细粒度图像数据集场景中，某类别的文本描述信息通常来源于维基百科，某一领域的专业网站，搜索引擎或人的主观描述。
总体来看，人工定义辅助信息的优势和不足都比较明显，其优点在于可以充分利用人类在某一领域已有的先验知识设计语义信息的特定维度，得到语义向量具有良好的解释性。判别性好，准确率高，同时，其不足之处，在于高度依赖人工标注，需要人力成本和时间成本较高，且有一定的主观性，当面对人类先验知识不足的类别时，难以进行准确评估。

基于学习的辅助信息

基于学习的辅助信息是指利用机器学习的方法，使用某些预训练模型，为每类别学习到一个向量表征作为其语义特征，此时语义向量的某一维度不再具有实际意义。该向量整体上代表了该类别的某些特性，目前，对于零样本分类任务而言，基于学习的辅助信息主要可以分为标签嵌入方法和文本嵌入方法两个类别。

标签嵌入是指使用Word2Vec或Glove。等自然语言处理模型将类别标签名称嵌入到一个实值空间，得到其向量化表示。利用这种方法得到的词向量中的向量之间的相似度可以较好地模拟单词语义上的相似度，有良好的线性相加性。更加灵活。且Word2vec或Glove模型可以通过维基百科等开源语料库以无监督方式训练得到，极大地节省了人工标注成本，具体来说，已有部分工作利用标签嵌入对语义空间进行构建，取得了良好的效果。
文本嵌入方法与人工定义的辅助信息中文本关键词方法类似，首先需要获取关于该类别的文本描述，但文本嵌入无需挖掘关键词作为向量维度，而是直接通过某一学习的文本编码模型将多个文本描述转化为该类别语义表征向量。

在这里插入图片描述

与人工定义的辅助信息不同，基于学习的辅助信息各维度没有对应的语义表示，得到的向量表示却也能够模拟类别间的相似度，以一种更加自然的方式获得语义信息。其主要优势在于无需人工标注可节省大量人力物力，但是，相对来说，该方法得到的语义特征包含较多的噪声，且特征可解释性较低，难以结合人类先验知识，需要指出的是，对于现阶段而言，相较于使用人工定义的辅助信息的零样本分类算法，在使用基学习的辅助信息时，零样本学习模型性能会产生明显的下滑，因此探索，如何更加高效的基于学习的辅助信息对于零样本分类任务具有重要的研究价值。