[NIPS 2018] Generalized Zero-Shot Learning with Deep Calibration Network

最新推荐文章于 2024-06-08 09:52:09 发布

一亩高粱

最新推荐文章于 2024-06-08 09:52:09 发布

阅读量2.1k

点赞数 1

本文链接：https://blog.csdn.net/cp_oldy/article/details/83744479

版权

基于深度校准网络的广义零样本学习
Generalized Zero-Shot Learning with Deep Calibration Network

本文亮点：在训练时使用目标域的标签

文章目录

- [基于深度校准网络的广义零样本学习
  Generalized Zero-Shot Learning with Deep Calibration Network](http://ise.thss.tsinghua.edu.cn/~mlong/doc/deep-calibration-network-nips18.pdf)
1 Introduction 引言
3 广义零样本学习
4 实验
- 4.2 Standard ZSL
- 4.3 GZSL结果

1 Introduction 引言

在这里插入图片描述
动机/问题：广义零样本学习的技术难点。对已见类数据的过拟合导致对目标类别（已见类和未见类）的不确定预测，是GZSL性能低的原因。

如图，经过校正的网络预测更加准确。
问题：预测更加准确，是否能够提升分类精度？能够在实验中给出前后对比吗？

3 广义零样本学习

符号：
已见数据 $\mathcal{D} = \{ (x_n, y)n) \}_{n=1}^N$
源类别 $\mathcal{S}=\{ 1, \cdots, S \}$
目标类 $\mathcal{T}=\{ S+1, \cdots, S+T \}$ , 训练时样本不可见
一个类别 $\in \{\mathcal{S \cup T}\}$ 的语义表示为 $a_c \in \mathbb R^Q$
所有类别的语义表示 $\mathcal{A}=\{a_c\}_{c=1}^{S+T}$
未见类数据 $\mathcal{D'} = \{ x_m \}_{m=N+1}^{N+M}$ , 源类或者目标类数据

定义1：零样本，ZSL Given $\mathcal{D}$ and ${a_c\}_{c=1}^{S}$ , classify $\mathcal{D}$ over target classes $\mathcal{T}$ .
定义2：广义零样本，GZSL Given $\mathcal{D}$ and ${a_c\}_{c=1}^{S+T}$ of both source and target classes, learn a model $\mapsto y$ to classify $\mathcal{D'}$ over both source and target classes $\mathcal{S \cup T}$ .

在这个定义里，ZSL没有利用目标域的标签。

3.1 预测函数

图像 $\in \mathcal{D}$
特征嵌入 $\phi(x) \in \mathbb R^K$
类别语义 $\in \mathcal{A}$ ，属性或者词向量
语义嵌入 $\psi(a) \in \mathbb R^K$

这里的嵌入空间就是特征空间，论文给出的是2048维的ResNet特征或者1024维的GoogleNet特征

图像的视觉嵌入 $z_n = \phi(x_n)$
类别的语义嵌入 $v_c = \psi(a_c)$

预测函数
$f_c(x_n) = \rm sim(\phi(x_n), \psi(a_c))$
$\rm sim(., .)$ 是相似度函数，比如內积和余弦相似度； $f_c(x_n)$ 是(nearest prototype classifier) NPC分类器分配给图像 $x_n$ 类别 $c$ 的强度。

图像 $x_n$ 的预测类别 $y(x_n)$ 为
$y(x_n)=\arg \max_c f_c(x_n)$

论文提到，预测源类和目标类的导致的技术难度是不一样的。

3.2 风险最小化

multi-class Hinge loss
$\sum_{n=1}^{N}\sum_{c=1}^{S}=\max (0, \Delta(y_n, c) + f_c(x_n)-f_{y_n}(x_n) )$
其中，间隔定义为
$\Delta(y_n, c) = \begin{cases} 0& {y_n = c}\\ 1& {y_n != c} \end{cases}$
文中提到大部分零样本学习方法使用多分类Hinge损失来学习视觉语义映射。

作者应用温度校正来缓解由于在已见数据上的过拟合导致的对源域类别的过分相信。温度校正是Hinton老爷子提出来从深度网络蒸馏知识的。作者应用温度校正来将预测 $f$ 转换到源于类别上的概率分布

$p_c(x_n) = \frac {\exp(f_c(x_n)/\tau)} {\sum_{c'=1}^{S} \exp(f_{c'}(x_n)/\tau)}$

其中， $\tau$ 就是温度，当 $\tau=1$ 是深度网络里最常见的选项。温度 $\tau$ 用 $\tau>1$ “软化”了softmax。当 $\tau \to \infty$ 时，概率 $p_c \to 1/S$ ，这将导致最大的不确定性。当 $\tau \to 0$ 时，概率坍缩到一点（即 $p_c = 1$ ）。因为 $\tau$ 不改变softmax函数的最大值，收敛后如果应用温度校正 $\tau \neq 1$ 。

将概率 $p_c$ 插入到源域类别 $S$ 的可见数据 $\mathcal D$ 上的交叉熵损失得到

$-\sum_{n=1}^{N} \sum_{c=1}^{S} y_{n, c} \log{p_c(x_n)}. \tag{6}$

关于这个loss，作者认为，相比于multi-class Hinge loss，虽然交叉熵是一个很简单的处理多分类的方案，但能够利用温度校正来缓解过拟合。

3.3 不确定性校准

不管是ZSL还是GZSL，都强调了模型训练不能使用目标域训练数据。但是，要用模型识别目标域的数据，必须让模型学习目标域的知识。所以就只能用到目标域的语义信息。

作者提出，将模型的预测 $f_c$ 转换成目标域上的概率（带有温度校正）。

$q_c(x_n) = \frac {\exp (f_c(x_n)/\tau)} {\sum_{c'=S+1}^{S+T} \exp(f_{c'}(x_n)/\tau)} \tag{7}$

温度校正 $\tau \neq 1$ 在公式(6)和(7)的端到端的训练中都会用到。

解释
直观上讲，目标域 $c$ 和源域图片 $x_n$ 对应的源域越相似，概率 $q_c(x_n)$ 的值越大。这样就避免了训练时源域图像对目标域图像的不确定性一致。在信息论中，熵 $h(q)=-q\log{q}$ 是对分布 $q$ 的不确定性的度量。值越低，不确定性越小。在本文中，作者提出了基于熵准则的不确定性校正的目标函数：