Contrastive Embedding for Generalized Zero-Shot Learning

最新推荐文章于 2024-07-10 16:50:08 发布

糯米~团子

最新推荐文章于 2024-07-10 16:50:08 发布

阅读量872

点赞数 16

分类专栏：未知故障文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Goodlick/article/details/134587148

版权

未知故障专栏收录该内容

17 篇文章 10 订阅

订阅专栏

文章目录

Preface
GZSL的对比嵌入
Experiment

Preface

生成模型与嵌入模型集成，混合GZSL方法将生成模型产生的真实样本和合成样本映射到一个嵌入空间中，在那里我们执行最终的GZSL分类。
对比嵌入（CE-GZSL）=类监督+实例监督

基于语义嵌入的方法在GZSL中表现不佳，原因在于投影域偏移问题。
基于特征生成的方法有效缓解偏移问题，然而特征生成方法在原始特征空间中产生合成的视觉特征。我们推测，原始特征空间远离语义信息，因此缺乏区分能力，对于GZSL分类是次优的。

贡献：

提出基于嵌入模型和基于特征生成模型的混合GZSL框架
提出一种对比嵌入，它可以在混合GZSL框架中利用类监督和实例监督

GZSL的对比嵌入

Problem definition

可见类： $S:y_s$
不可见类： $U:y_u$
两者不相交
$N$ 个有标签样本进行训练： $D_{tr}=\{(x_1,y_1),...,(x_N,y_N)\}$ , $x_i$ 表示实例 $y_i$ 表示对应的可见类标签。
包含 $M$ 个无标签样本的测试集： $D_{te}=\{x_{N+1},...,x_{N+M}\}$

类级语义描述： $A=\{a_1,...,a_S,a_{S+1},...,a_{S+U}\}$ 。我们可以从标记的实例 $y$ 推断出实例 $x$ 的语义描述符 $a$ 。

Hybrid GZSL

传统ZSL的语义嵌入旨在学习一个嵌入函数 $E$ ，该函数将一个视觉特征 $x$ 映射到表示为 $E (x)$ 的语义描述符空间中，常用的语义嵌入方法依赖于一个结构化损失函数。 $p (x, a)$ 是可见类的真实训练样本的经验分布， $a'\neq a$ 是其他类随机选择的语义描述符， $\triangle >0$ 是一个边际参数，使 $E$ 更稳健。
在这里插入图片描述
特征生成方法学习条件生成器网络 $G$ ，生成以高斯噪声 $\epsilon ~N(0,I)$ 和语义描述符 $a$ 为条件的样本 $\tilde{x}=G(a,\epsilon)$ 。
$D$ （识别网络）与 $G$ 一起训练以区分实例 $(x, a)$ 和合成例 $(\tilde{x},a)$ 。
特征发生器网络 $G$ 和鉴别器网络 $D$ 可以通过优化以下对抗性目标来学习
在这里插入图片描述
$p_G(\tilde{x},a)=p_G(\tilde{x}|a)p(a)$ 是合成特征和其对应的语义描述符的联合分布。
$G$ 的损失函数可表示为：

结合（1）（3），联合损失函数：

Contrastive Embedding

实例级对比嵌入

可视化样本 $x$ 的嵌入表示为 $h = E (x)$ 。对于每一个数据点 $h_i$ ，建立 $(K + 1) - w a y$ 分类子问题来区分唯一的正样本 $h^+$ 和 $K$ 个负样本 ${h_1^-,...,h_K^-\}$ 。其中， $h^+$ 与 $h_i$ 具备相同的类标签， $h_i^-$ 与 $h_i$ 的类标签不同。
添加一个非线性投影头 $H$ ： $z_i=H(h_i)=H(E(x_i))$ ，对 $z_i$ 进行 $(K + 1) - w a y$ 学习 $h_i$ ， $(K + 1) - w a y$ 交叉熵损失函数：
在这里插入图片描述

类级对比嵌入

学习了一个比较器网络 $F (h, a)$ ，它度量嵌入的 $h$ 和语义描述符 $a$ 之间的相关性得分。在 $F$ 的帮助下，我们将嵌入空间中随机选择的点的类级对比嵌入损失作为一个 $S - w a y$ 分类子问题。损失函数：
在这里插入图片描述

总体 Loss

（4）（6）（8）：
在这里插入图片描述

学习了一个嵌入函数 $E$ ，它将视觉样本 $x_i$ 映射到嵌入空间中，命名为 $h_i=E(x_i)$ 。
进一步学习了一个非线性投影 $H$ 来更好地约束嵌入空间 $z_i=H(h_i)$ 。
引入了一个比较器网络 $F$ ，它来测量 $h_i$ 和语义描述符 $a_i$ 之间的相关性得分。
通过实例级和类级的监督来学习嵌入函数。将对比嵌入模型与特征生成模型相结合。
在特征生成模型中，基于语义描述符 $a$ 和高斯噪声 $\epsilon$ 的特征生成器 $G$ 生成视觉特征，鉴别器 $D$ 的目的是区分假视觉特征和真实视觉特征。

GZSL classification

首先通过组合特征生成器网络 $G$ 和嵌入函数 $E:\tilde{h}_j=E(G(a_u,\epsilon))$ 来生成嵌入空间中每个不可见类的特征，其中 $u \geq S + 1$ ， $a_u$ 是一个不可见类的语义描述符。
将 $D_{tr}$ 中可见类的给定训练特征映射到相同的嵌入空间中： $h_i =E(x_i)$ 。
最后，我们利用嵌入空间中的真实样本和合成的看不见样本来训练softmax模型作为最终的GZSL分类器。

Experiment

$F$ 是一个多层感知器（MLP），其中包含一个带有LeakyReLU激活的隐藏层。
$F$ 以嵌入的 $h$ 和语义描述符 $a$ 的串联体作为输入，并输出它们之间的相关性估计。
生成器 $G$ 和鉴别器 $D$ 都包含一个4096个单元的隐藏层与LeakyReLU激活。

Paper
Code

糯米~团子

关注

16
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
Contrastive Embedding for Generalized Zero-Shot Learning

基于特征生成的方法有效缓解偏移问题，然而特征生成方法在原始特征空间中产生合成的视觉特征。我们推测，原始特征空间远离语义信息，因此缺乏区分能力，对于GZSL分类是次优的。生成模型与嵌入模型集成，混合GZSL方法将生成模型产生的真实样本和合成样本映射到一个嵌入空间中，在那里我们执行最终的GZSL分类。的帮助下，我们将嵌入空间中随机选择的点的类级对比嵌入损失作为一个。的语义描述符空间中，常用的语义嵌入方法依赖于一个结构化损失函数。是合成特征和其对应的语义描述符的联合分布。是可见类的真实训练样本的经验分布，
复制链接

扫一扫