Zero-shot learning（二）：ZSL关于嵌入模型的理解

最新推荐文章于 2025-04-01 15:45:00 发布

难受啊！马飞...

最新推荐文章于 2025-04-01 15:45:00 发布

阅读量1.8k

点赞数 4

分类专栏：深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_33328642/article/details/89565256

版权

深度学习专栏收录该内容

11 篇文章

订阅专栏

Zero-shot learning（二）：ZSL关于嵌入模型的理解

前言

（不好意思，关于零样本学，上一张说过的一些东西。课题组老师要求论文没有见刊之前，idea不能公布到网上，关于ZSL的东西先更到这边）

--------从上述基本技术路线中，我们可知在零样本学习问题中存在四大关键技术。
一是图片特征的提取方式。现实世界中，图片数据复杂冗余、千变万化，为图片学习具有语义性的待征，对于缩小与高层语义之间的鸿沟具有重要作用。
二是语义嵌入空间的构造方式。不同的语义嵌入空间通常反映了物体类标签的不同语义性，如何构造合适的语义嵌入空间，从而使之与图片特征空间保持结构上的一致性，对于整个零样本学习问题的求解具有关键作用。
三是图片特征空间与语义嵌入空间的关联方式。在基于语义嵌入空间的零样本学习方法中，两者之间的关联方式是大部分模型关注的重点。
四是未知类标签的预测方式。作为是迁移学习问题的一种特殊情况，零样本学习问题也存在多种不同的标签预测技术。这些关键技术是整个零样本学习领域重点关注的对象，通过采用不同的关键技术，我们又可以形成不同的零样本学习方法。

--------前一章提到了，关于ZSL的语义表示空间有三种形式：属性空间、词向量空间、句子/文本描述空间。
--------Zero-shot learning依赖于存在的一组有标记的训练类，以及关于一个不可见类如何与所见类在语义上相关的知识。可见和不可见的类通常在高维向量空间中相关，称为语义空间，其中来自可见类的知识可以转移到不可见的类。大多数早期工作使用的语义空间基于语义属性[1，2，3]。给定定义的属性本体，每个类名可以由属性向量表示，并称为类原型。最近，语义词向量空间[4,5]和句子描述[6]开始流行起来。对于前者，类名被投射到单词向量空间中以便可以比较不同的类，而对于后者，需要神经语言模型来提供描述的向量表示。

关于语义空间–Semantic space

--------现有的ZSL方法在使用什么语义空间方面有所不同：通常是属性空间[1,2,3]，单词向量空间[4,5]或文本描述空间[6]。已经表明，属性空间通常比单词向量空间更有效。这并不奇怪，因为每个类都需要额外的属性注释。同样，在[6]中，利用图像语句描述构造语义空间，实现了对细粒度识别任务的最新研究成果。同样，性能良好的代价是需要更多的手工注释：每张图像需要收集10个句子描述，这比属性注释还要昂贵。这就是为什么单词矢量语义空间仍然具有吸引力：它是“自由的”，并且是许多看不见的类的大规模识别的唯一选择[7]。在这项工作中，考虑了所有三个语义空间。

1 A. Farhadi, I. Endres, D. Hoiem, and D. Forsyth. Describing objects by their attributes. In CVPR, 2009.
2 V. Ferrari and A. Zisserman. Learning visual attributes. In NIPS, 2007.
3 D. Parikh and K. Grauman. Relative attributes. In ICCV, 2011.
4 R. Socher, M. Ganjoo, C. D. Manning, and A. Ng. Zero-shot learning through cross-modal transfer. In NIPS, 2013.
5 A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, T. Mikolov, et al. Devise: A deep visual-semantic embedding model. In NIPS, 2013.
6 S. Reed, Z. Akata, B. Schiele, and H. Lee. Learning deep representations of fine-grained visual descriptions. In CVPR,
2016.
7 Y. Fu and L. Sigal. Semi-supervised vocabulary-informed learning. In CVPR, 2016.

融合多模态语义空间–Fusing multiple semantic spaces 多个语义空间通常互为补充; 因此融合它们可以潜在地改善识别性能。分数级融合可能是最简单的策略[1]。已经提出了更复杂的多视图嵌入模型。Akata等[2]学习在属性，文本和层次关系之间嵌入语义空间，这在很大程度上依赖于超参数搜索。多视角典型相关分析(CCA)也被应用于[3]以一种转导的方式(transductive way)探索不同的测试数据模式。与这些模型不同的是，我们的神经网络模型有一个嵌入层来融合不同的语义空间，并将融合后的表示与其余的视觉语义嵌入网络连接起来，实现端到端的学习。与[3]不同，它是归纳的，不需要一次访问整个测试集。
1 Z. Fu, T. Xiang, E. Kodirov, and S. Gong. Zero-shot object recognition by semantic manifold distance. In CVPR, 2015
2 Z. Akata, S. Reed, D. Walter, H. Lee, and B. Schiele. Evaluation of output embeddings for fine-grained image classification. In CVPR, 2015.
3 Y. Fu, T. M. Hospedales, T. Xiang, Z. Fu, and S. Gong. Transductive multi-view embedding for zero-shot recognition
and annotation. In ECCV, 2014.
嵌入模型Embedding model 现有的方法在使用的视觉语义嵌入模型上也有所不同。可以将其分为两组:(1)第一组利用预先计算好的特征从视觉特征空间回归到语义空间，学习映射函数[1,2]或深度神经网络回归[3,4]。对于这些嵌入模型，语义空间是嵌入空间。（2）第二组模型通过一个共同的中间空间隐含地学习视觉和语义空间之间的关系，同样，要么使用神经网络公式[5,6]，要么没有使用[5,7,8,9]。因此，嵌入空间既不是视觉特征空间，也不是语义空间。在[10]中表明，使用视觉特征空间作为嵌入空间的本质上是有利的，因为它能够缓解中心问题。
1 C. H. Lampert, H. Nickisch, and S. Harmeling. Attributebased classification for zero-shot visual object categorization. PAMI, 2014.
2 Y. Fu and L. Sigal. Semi-supervised voc abulary-informed learning. In CVPR, 2016.
3 R. Socher, M. Ganjoo, C. D. Manning, and A. Ng. Zero-shot learning through cross-modal transfer. In NIPS, 2013.
4 A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, T. Mikolov, et al. Devise: A deep visual-semantic embedding model. In NIPS, 2013.
5 J. Lei Ba, K. Swersky, S. Fidler, and R. Salakhutdinov. Predicting deep zero-shot convolutional neural networks using textual descriptions. In ICCV, 2015.
6 Y. Yang and T. M. Hospedales. A unified perspective on multi-domain and multi-task learning. In ICLR, 2015.
7 Z. Akata, S. Reed, D. Walter, H. Lee, and B. Schiele. Evaluation of output embeddings for fine-grained image classification. In CVPR, 2015.
8 B. Romera-Paredes and P. Torr. An embarrassingly simple approach to zero-shot learning. In ICML, 2015.
9 Y. Fu, T. M. Hospedales, T. Xiang, Z. Fu, and S. Gong. Transductive multi-view embedding for zero-shot recognition and annotation. In ECCV, 2014.
10 Learning a Deep Embedding Model for Zero-Shot Learning