我们的贡献包括在这种新设定下对现有几种ZSL方法进行广泛的实证研究,我们证明用这些方法构造一个简单的分类器性能很差,特别是,来自unseen classes 的测试数据几乎总被归类为来自seen classes的测试数据。为了解决这个问题,我们提出了一种简单有效的校正叠加(calibrated stacking)方法。该方法注意到两种相互冲突的力量,识别来自seen classes的数据和识别来自unseend classes类别的数据。我们引入了一种新的性能度量,称为看不见精度曲线下的面积(AUSUC)。它可以评估ZSL方法在这两种方法之间的平衡情况。
我们通过三个基准数据集,(包括完整的ImageNet 2011年秋季发布的数据集[29],其中包含大约21,000个unseen classes)上评估在这个指标下的几个代表性ZSL方法来演示这个指标的效用。
Calibrated stacking 校准堆叠
我们的方法源于这样的观察:对seen classes的判别函数的分数往往要高于unseen classes。因此,出于直觉,我们想要减少seen classes的分值。于是设定了下面的分类规则:
(可见类别判别函数的分值往往要高于不可见类别,减少可见类别的分值)
y
^
=
a
r
g
m
a
x
c
∈
T
f
c
(
x
)
−
γ
I
[
c
∈
S
]
\hat{y} = argmax_{c \in T}f_c(x) - \gamma I[c \in S]
y^=argmaxc∈Tfc(x)−γI[c∈S]
其中,指示函数(indicator)
I
[
∗
]
∈
(
0
,
1
)
I[*] \in (0,1)
I[∗]∈(0,1)表示
c
c
c是否来自可见类别,
γ
\gamma
γ是一个校准因子,我们将这个可调的规则,称为calibrated stacking(校准堆叠)
另一个方法来解释
γ
\gamma
γ,将
γ
\gamma
γ视为来自不可见类别(unseen classes)的一个先验似然。当
γ
=
0
\gamma = 0
γ=0时,校准堆叠规则是将重新变成之前提到的重新堆叠规则(direct stacking)规则。
考虑到这两个极端的例子,可以方便地了解
γ
\gamma
γ.当
γ
→
∞
\gamma \rightarrow\infin
γ→∞时,分类规则会完全忽略所有的可见类并且将所有数据点都分到unseen classes中,当没有来自可见类的新数据点时,这个分类规则就相当于传统的ZSL设定。另外,当
γ
→
−
∞
\gamma \rightarrow-\infin
γ→−∞时,分类规则仅考虑了可见类别在标准的多样分类的标签空间。这个校准堆叠规则因此表示一个处于完全对可见类别分类和保守的值将数据点分类到不可见类别的两者之间的一个中间状态。因此,调整这个超参数可以带来一种权衡,(trade-off)。而我们利用这种权衡来定义一个新的性能度量。