文章链接:Is Out-of-Distribution Detection Learnable?
这篇文章是针对 OOD 检测的理论文章,主要是数据的OOD检测及检测算法。
摘要
监督学习的目的是在训练数据和测试数据来自同一分布的假设下训练分类器。为了简化上述假设,研究人员研究了一个更现实的设置:out- distribution (OOD) detection,其中测试数据可能来自训练期间未知的类别(即 OOD 数据)。由于OOD 数据的不可获得性和多样性,良好的泛化能力对于有效的 OOD 检测算法至关重要。为了研究 OOD 检测的泛化问题,本文研究了由研究者作为一个开放问题提出的关于 OOD 检测的可能近似正确( PAC )学习理论。首先,我们找到了 OOD 检测可学习性的必要条件。然后,利用这个条件,我们证明了一些场景下 OOD 检测可学习性的几个不可能定理。虽然不可能定理令人沮丧,但我们发现这些不可能定理的一些条件在某些实际情况下可能不成立。基于这一观察,我们接下来给出了几个必要和充分条件来表征 OOD 检测在一些实际场景中的可学习性。最后,我们还基于我们的 OOD 理论为几个具有代表性的 OOD 检测工作提供了理论支持。
1 引言
监督学习的成功建立在一个隐含的假设上,即训练数据和测试数据共享相同的分布,即in-distribution (ID)[1,2,3,4]。然而,在许多真实场景中的测试数据分布可能违反了这一假设,而是包含了在训练过程中没有看到标签的out- distribution (OOD)数据[5,6]。为了降低 OOD 数据的风险,研究人员考虑了一个更实用的学习场景: OOD 检测,它确定输入是否是 ID/OOD,同时将 ID 数据分类到各自的类别。 OOD 检测在确保机器学习模型在现实世界中的可靠部署方面显示出巨大的潜力。已经开发了一系列丰富的算法来经验地解决 OOD 检测问题。然而,研究OOD 检测理论的著作很少,这阻碍了该领域严谨的前进道路。本文旨在弥合这一差距。
在本文中,我们提供了一个理论框架来理解OOD检测问题的可学习性。我们研究了OOD 检测的可能近似正确( PAC )学习理论,这是迄今为止提出的一个开放问题。与经典的监督式PAC学习理论不同,由于训练中缺乏 OOD 数据,我们的问题设置从根本上具有挑战性。
在许多现实场景中,OOD 数据可能是多种多样且优先级未知的。鉴于此,我们研究是否存在一种算法可以用来检测各种 OOD 数据,而不仅仅是某些特定的OOD 数据。这就是研究 OOD 检测的学习理论的意义[4]。这激发了我们的问题:OOD 检测 PAC 是可学习的吗?即是否存在 PAC 学习理论来保证 OOD 检测的泛化能力?
为了研究学习理论,我们主要关注两个基本空间:领域空间和假设空间。域空间是由一些分布组成的空间,假设空间是由一些分类器组成的空间。现有的监督学习中的不可知论
P
A
C
PAC
PAC 理论[21,22]是无分布的,即域空间由所有域组成。然而,在定理 4 中,我们证明了 OOD 检测的学习理论不是无分布的。事实上,我们发现OOD 检测是可学习的,只有当域空间和假设空间满足一些特殊条件时,例如条件 1 和条件 3。值得注意的是,现有的学习理论中有很多条件和定理,文献中也有很多 OOD 检测算法。因此,分析这些理论和算法之间的关系,探索有用的条件以确保 OOD 检测的可学习性是非常困难的,特别是当我们必须从头开始探索它们时。因此,本文的主要目的就是研究这些基本条件。从这些基本条件中,我们可以知道 OOD 检测在实际场景中何时可以成功。我们重申我们的问题和目标如下:
给定假设空间和几个具有代表性的域空间,保证 OOD 检测可学习性的条件是什么?如果可能的话,我们希望这些条件在某些情况下是必要和充分的。
主要的结果。从最大空间(总空间)出发研究 OOD 检测的可学习性,给出了可学习性的必要条件(条件1)。但是,我们发现 ID 和 OOD 数据的重叠可能导致必要条件不成立。因此,我们给出了一个不可能定理来证明在总空间中 OOD 检测失败(定理4)。接下来,我们在独立空间中研究 OOD 检测,其中 ID 和 OOD 数据之间没有重叠。不幸的是,仍然存在不可能定理(定理5),它表明在某些条件下,OOD 检测在分离空间中是不可学习的。
虽然在独立空间中得到的不可能定理令人沮丧,但我们发现这些不可能定理的一些条件在某些实际情况下可能不成立。基于这一观察,我们给出了几个必要和充分条件来表征单独空间中 OOD 检测的可学习性(定理 6 和定理 10)。特别是,当我们的模型基于全连接神经网络(FCNN)时,OOD 检测在分离空间中是可学习的,当且仅当特征空间是有限的。此外,我们还研究了其他更实用的领域空间中OOD 检测的可学习性,例如有限ID -分布空间(定理8)和基于密度的空间(定理9)。通过研究有限ID-分布空间,我们发现了一个兼容条件(条件3),这是该空间的充分必要条件。接下来,我们进一步研究了基于密度的空间中的相容性条件,发现该条件在一些实际场景中也是充要条件(定理11)。
理论的含义和影响。我们的研究不是纯粹的理论兴趣;它也有实际的影响。首先,当我们设计 OOD 检测算法时,我们通常只有有限ID数据集,对应于有限 ID 分布空间。在这种情况下,定理 8 给出了 OOD 检测成功的充分必要条件。其次,我们的理论为几个具有代表性的 OOD 检测工作[7,8,23]提供了理论支持(定理 10 和定理 11)。第三,我们的理论表明,在基于图像的场景中,当 ID 图像与 OOD 图像具有明显不同的语义标签和风格(远 OOD)时,OOD 检测是可学习的。第四,我们不应该期望一个普遍有效的算法。在不同的场景下设计不同的算法是必要的。
2 学习设置
我们首先为我们的理论框架介绍必要的概念和符号。给定特征空间
X
⊂
R
d
\mathcal{X}\subset \mathbb{R}^d
X⊂Rd 和标签空间
Y
:
=
{
1
,
.
.
.
,
K
}
\mathcal{Y}:=\{1,...,K\}
Y:={1,...,K},我们有一个
I
D
ID
ID 联合分布
X
×
Y
\mathcal{X}\times \mathcal{Y}
X×Y,其中
X
1
∈
X
X_1\in \mathcal{X}
X1∈X 和
Y
1
∈
Y
Y_1\in \mathcal{Y}
Y1∈Y 是随机变量。我们也有一个 OOD 联合分布
D
X
O
Y
O
D_{X_OY_O}
DXOYO,其中
X
O
X_O
XO 是来自
X
\mathcal{X}
X 的随机变量,但
Y
O
Y_O
YO 是输出不属于
Y
\mathcal{Y}
Y 的随机变量。在检验时,我们会遇到 ID 和 OOD 联合分布的混合情况:
D
X
:
=
(
1
−
π
o
u
t
)
D
X
1
Y
1
+
π
o
u
t
D
X
O
Y
O
D_{X}:= (1-π^{out})D_{X_1Y_1} +π^{out}D_{X_OY_O}
DX:=(1−πout)DX1Y1+πoutDXOYO,只能观察到边际分布
D
X
Y
:
=
(
1
−
π
o
u
t
)
D
X
1
+
π
o
u
t
D
X
O
D_{XY}:= (1-π^{out})D_{X_1} +π^{out}D_{X_O}
DXY:=(1−πout)DX1+πoutDXO,其中
π
o
u
t
∈
[
0
,
1
]
π^{out}\in[0,1]
πout∈[0,1] 是未知的类先验概率。
问题1 (OOD检测[4])。给定 ID 联合分布
D
X
I
Y
I
D_{X_IY_I}
DXIYI 和来自
D
X
I
Y
I
D_{X_IY_I}
DXIYI 独立同分布的训练数据
S
:
=
{
(
x
1
,
y
1
)
,
.
.
.
,
(
x
n
,
y
n
)
}
S:= \{(x^1, y^1),..., (x^n,y^n)\}
S:={(x1,y1),...,(xn,yn)},OOD 检测的目的是利用训练数据
S
S
S 训练分类器
f
f
f,使得对于从混合边缘分布
D
X
D_X
DX 中提取的任何测试数据
x
x
x: 1)如果x 是来自
D
X
1
D_{X_1}
DX1 的观测值,
f
f
f 可以将
x
x
x 分类到正确的 ID 类中;2)如果
x
x
x 是来自
D
X
O
D_{X_O}
DXO的观测值,
f
f
f 可以将
x
x
x 检测为 OOD 数据。
根据调查[4],当
K
>
1
K >1
K>1 时,OOD 检测也称为开放集识别或开放集学习[24,25];当
K
=
1
K = 1
K=1 时,OOD 检测简化为一类新颖性检测和语义异常检测[26,27,28]。
OOD标签和域空间。根据问题1,我们知道没有必要将 OOD 数据分类到正确的 OOD 类中。在不损失通用性的前提下,将所有 OOD 数据分配给一个大的 OOD 类,即
Y
O
=
K
+
1
Y_O=K+1
YO=K+1 [24,29]也就是把检测为OOD的都归为未知类。
。为了研究 OOD 检测的
P
A
C
PAC
PAC 可学习性,我们定义了一个域空间
D
X
Y
\mathscr{D}_{XY}
DXY,它是由一些 ID 联合分布和一些 OOD 联合分布混合而成的一个集合。本文将由 ID 联合分布
D
X
I
Y
I
D_{X_IY_I}
DXIYI 和 OOD 联合分布
D
X
O
Y
O
D_{X_OY_O}
DXOYO 混合而成的联合分布
D
X
Y
D_{XY}
DXY称为域。
假设空间与计分函数空间。假设空间
H
\mathcal{H}
H 是函数空间的子集,即
H
⊂
{
h
:
X
→
Y
∪
K
+
1
}
\mathcal{H}\subset \{h:\mathcal{X}→\mathcal{Y}\cup {K+1}\}
H⊂{h:X→Y∪K+1}。我们设
H
i
n
⊂
{
h
:
X
→
Y
}
\mathcal{H}^{in}\subset \{h: \mathcal{X}→\mathcal{Y}\}
Hin⊂{h:X→Y} 到 ID 假设空间。我们还定义
H
b
⊂
{
h
:
X
→
{
1
,
2
}
}
\mathcal{H}^{b}\subset \{h: \mathcal{X}→\{1,2\}\}
Hb⊂{h:X→{1,2}}作为二值分类的假设空间,其中 1 表示 ID 数据,2 表示 OOD 数据。函数
h
h
h 称为假设函数。评分函数空间是函数空间的一个子集,即
F
⊂
f
:
X
→
R
l
F \subset {\bm {f}:\mathcal{X}→\mathbb{R}^l}
F⊂f:X→Rl,其中
l
l
l 是向量值函数
f
\bm f
f 的输出维数,函数
f
\bm f
f 称为评分函数。
损失和风险。设
Y
a
l
l
=
Y
∪
K
+
1
\mathcal{Y}_{all} =\mathcal{Y}\cup {K+1}
Yall=Y∪K+1。给定一个损失函数
l
:
Y
a
l
l
×
Y
a
l
l
→
R
>
0
l: \mathcal{Y}_{all} ×\mathcal{Y}_{all}→\mathcal{R}_{>0}
l:Yall×Yall→R>0 满足
l
(
y
1
,
y
2
)
=
0
l(y_1,y_2) =0
l(y1,y2)=0 当且仅当
y
1
=
y
2
y_1= y_2
y1=y2,且任意
h
∈
H
h\in \mathcal{H}
h∈H,那么对于
D
X
Y
D_{XY}
DXY 的风险是
R
D
(
h
)
=
E
(
x
,
y
)
∼
D
X
Y
l
(
h
(
x
)
,
y
)
(
1
)
R_D(h) = \mathbb{E}_{(x,y)\sim D_{XY}}l(h(x),y)\quad (1)
RD(h)=E(x,y)∼DXYl(h(x),y)(1)
α
−
r
i
s
k
R
D
α
(
h
)
=
(
1
−
α
)
R
D
i
n
(
h
)
+
α
R
D
o
u
t
(
h
)
,
∀
α
[
0
,
1
]
\alpha-riskR_D^{\alpha}(h)=(1 - \alpha)R_D^{in}(h) + \alpha R_D^{out}(h), \forall \alpha[0,1]
α−riskRDα(h)=(1−α)RDin(h)+αRDout(h),∀α[0,1],其中 risk
R
D
i
n
(
h
)
,
R
D
o
u
t
(
h
)
R_D^{in}(h), R_D^{out}(h)
RDin(h),RDout(h) 为
R
D
i
n
(
h
)
:
=
E
(
x
,
y
)
∼
D
X
I
Y
I
l
(
h
(
x
)
,
y
)
,
R
D
o
u
t
(
h
)
:
=
E
x
∼
D
X
O
l
(
h
(
x
)
,
K
+
1
)
R_D^{in}(h): = \mathbb{E}_{(x, y) \sim D_{X_IY_I}}l(h(x), y),R_D^{out}(h): = \mathbb{E}_{x\sim D_{X_O}}l(h (x), K+1)
RDin(h):=E(x,y)∼DXIYIl(h(x),y),RDout(h):=Ex∼DXOl(h(x),K+1)易学性。我们的目标是在有限数据的基础上,选择一个风险近似最小的假设函数
h
∈
H
h\in \mathcal{H}
h∈H。通常,随着样本量的增加,我们期望近似值变得更好。实现这一点的算法被称为是一致的。正式地,我们引入以下定义:
定义1 (OOD检测的易学性)。给定一个域空间
D
X
Y
\mathscr{D}_{XY}
DXY 和一个假设空间
H
⊂
{
h
:
X
→
Y
a
l
l
)
\mathcal{H}\subset \{h: \mathcal{X}→\mathcal{Y}_{all})
H⊂{h:X→Yall),我们说对于
H
\mathcal{H}
H,在
D
X
Y
\mathscr{D}_{XY}
DXY 中 OOD 检测是可学习的,如果存在一个算法
A
:
∪
n
=
1
+
∞
(
X
×
Y
)
n
→
H
\bm{A}: \cup _{n=1}^{+\infty}(\mathcal{X × Y})^n\rightarrow \mathcal{H}
A:∪n=1+∞(X×Y)n→H,和一个单调递减的序列
ϵ
c
o
n
s
(
n
)
\epsilon_{cons}(n)
ϵcons(n),使得
ϵ
c
o
n
s
(
n
)
→
0
\epsilon_{cons}(n)→0
ϵcons(n)→0,即
n
→
+
∞
n→+\infty
n→+∞,对于任意域
D
X
Y
∈
D
X
Y
D_{XY}\in \mathscr{D}_{XY}
DXY∈DXY,
E
S
∼
D
X
I
Y
I
n
[
R
D
(
A
(
S
)
)
−
i
n
f
h
∈
H
R
D
(
h
)
]
≤
ϵ
c
o
n
s
(
n
)
,
(
2
)
\mathbb{E}_{S\sim D_{X_IY_I}^n}[R_D(\bm{A}(S)) - inf_{h\in \mathcal{H}} R_D(h)] \le\epsilon_{cons}(n),\quad (2)
ES∼DXIYIn[RD(A(S))−infh∈HRD(h)]≤ϵcons(n),(2)对于这个成立的算法
A
\bm A
A,我们说它相对于
D
X
Y
\mathscr{D}_{XY}
DXY 是一致的。
定义1是监督学习的不可知论 PAC 可学习性的自然延伸[30]。如果对于任意
D
X
Y
∈
D
X
Y
,
π
o
u
t
=
0
D_{XY}\in \mathscr{D}_{XY},\pi^{out}=0
DXY∈DXY,πout=0,则定义 2 是监督学习的不可知PAC可学习性。虽然定义 1 的表达式与文献[21]中一般的不可知论 PAC 学习的定义不同,但我们可以很容易地证明它们在
l
l
l 有界时是等价的,参见附录D.3。
由于 OOD 数据不可用,所以不可能获得关于类先验概率
π
o
u
t
\pi^{out}
πout 的信息。此外,在现实世界中,
π
o
u
t
\pi^{out}
πout 可能是
[
0
,
1
)
[0,1)
[0,1) 中的任何值。因此,ID 和 OOD 分布之间的不平衡问题以及优先级未知问题(即
π
o
u
t
\pi^{out}
πout 未知)是核心挑战。为了缓解这些挑战,研究人员使用 AUROC、AUPR 和 FPR95 来估计 OOD 检测的性能。定义1 和现有的作品之间似乎有差距。为了消除这一差距,我们将Eq.(2)修改如下:
E
S
∼
D
X
I
Y
I
n
[
R
D
α
(
A
(
S
)
)
−
i
n
f
h
∈
H
R
D
α
(
h
)
]
≤
ϵ
c
o
n
s
(
n
)
,
∀
α
∈
[
0
,
1
]
.
(
3
)
\mathbb{E}_{S\sim D_{X_IY_I}^n}[R_D^{\alpha}(\bm{A}(S))- inf_{h\in \mathcal{H}} R_D^{\alpha}(h)] \le \epsilon_{cons}(n), \forall \alpha \in[0,1]. \quad (3)
ES∼DXIYIn[RDα(A(S))−infh∈HRDα(h)]≤ϵcons(n),∀α∈[0,1].(3)如果算法
A
\bm A
A 满足 Eq.(3),则不平衡问题和先验未知问题消失。即A可以同时很好地分类 ID 数据和检测 OOD 数据。基于以上讨论,我们将 OOD 检测的强学习性定义为:
定义2 (OOD检测的强学习性)。给定域空间
D
X
Y
\mathscr{D}_{XY}
DXY 和假设空间
H
⊂
{
h
:
X
→
Y
a
l
l
}
\mathcal{H}\subset \{h: \mathcal{X→Y}_{all}\}
H⊂{h:X→Yall},在
D
X
Y
\mathscr{D}_{XY}
DXY中,对于
H
\mathcal{H}
H, OOD 检测是强可学习的,如果存在算法
A
:
∪
n
=
1
+
∞
(
X
×
Y
)
n
→
H
\bm{A}:\cup_{n=1}^{+\infty}(\mathcal{X\times Y})^n\rightarrow \mathcal{H}
A:∪n=1+∞(X×Y)n→H ,和一个单调递减的序列
ϵ
c
o
n
s
(
n
)
\epsilon_{cons}(n)
ϵcons(n),使得
ϵ
c
o
n
s
(
n
)
→
0
\epsilon_{cons}(n)→0
ϵcons(n)→0,即
n
→
+
∞
n→+\infty
n→+∞,对于任意域
D
X
Y
∈
D
X
Y
D_{XY}\in \mathscr{D}_{XY}
DXY∈DXY,
E
S
∼
D
X
I
Y
I
n
[
R
D
α
(
A
(
S
)
)
−
i
n
f
h
∈
H
R
D
α
(
h
)
]
≤
ϵ
c
o
n
s
(
n
)
,
∀
α
∈
[
0
,
1
]
\mathbb{E}_{S\sim D_{X_IY_I}^n}[R_D^{\alpha} (\bm{A}(S)) - inf_{h\in \mathcal{H}} R_D^{\alpha} (h)] \le \epsilon_{cons}(n),\forall \alpha \in[0,1]
ES∼DXIYIn[RDα(A(S))−infh∈HRDα(h)]≤ϵcons(n),∀α∈[0,1]在定理 1 中,我们证明了如果域空间
D
X
Y
\mathscr{D}_{XY}
DXY是先验未知空间(见定义 3),OOD 检测的强可学习性等价于 OOD 检测的可学习性。本文主要讨论先验未知空间中的可学习性。因此,当我们提到 OOD 检测是可学习的,我们也意味着OOD检测是强可学习的。
理论目标。注意,监督学习的不可知论PAC可学习性是无分布的,即,域空间
D
X
Y
\mathscr{D}_{XY}
DXY 由所有域组成。然而,由于缺乏OOD数据在训练过程中(8、14、24),很明显,OOD的易学性检测不是分布自由的(即定理4)。事实上,我们发现 OOD 的易学性检测是与域空间
D
X
Y
\mathscr{D}_{XY}
DXY 和之间的关系假设空间
H
\mathcal{H}
H深度相关的.也就是说,OOD 检测是可学的只有当域空间
D
X
Y
\mathscr{D}_{XY}
DXY 和假设空间
H
\mathcal{H}
H 满足一些特殊的条件,例如,条件1和条件3。我们的目标如下:
目标:给定一个假设空间
H
\mathcal{H}
H 和几个具有代表性的域空间
D
X
Y
\mathscr{D}_{XY}
DXY,什么条件能保证 OOD 检测的可学习性?此外,如果可能的话,我们希望这些条件在某些情况下是必要和充分的。
因此,相对于监督学习中不可知的 PAC 可学习性,我们的理论并不关注无分布的情况,而是关注在几个具有代表性和实用性的领域空间
D
X
Y
\mathscr{D}_{XY}
DXY 中发现保证 OOD 检测可学习性的必要条件。通过这些基本条件,我们可以知道OOD检测在实际应用中何时可以成功。
3 在优先级未知的空间中学习
我们首先研究一个特殊的空间,称为先验未知空间。在此空间中,定义 1 和定义2 是等价的。此外,我们还证明了如果在空间
D
X
Y
\mathscr{D}_{XY}
DXY 中 OOD 检测是强可学习的,则可以发现一个更大的先验未知域空间,以保证 OOD 检测的可学习性。这些结果表明,在先验未知空间中考虑我们的理论就足够了。先验未知空间的引入如下:
定义3。给定一个域空间
D
X
Y
\mathscr{D}_{XY}
DXY,我们说
D
X
Y
\mathscr{D}_{XY}
DXY 是一个优先级未知的空间,如果对于任意域
D
∈
D
X
Y
\mathcal{D} \in \mathscr{D}_{XY}
D∈DXY和任意
α
∈
[
0
,
1
]
\alpha \in [0,1]
α∈[0,1],我们有
D
X
Y
α
:
=
(
1
−
α
)
D
X
I
Y
I
+
α
D
X
O
Y
O
∈
D
X
Y
D_{XY}^{\alpha}:= (1-\alpha) D_{X_IY_I} +\alpha D_{X_OY_O}\in \mathscr{D}_{XY}
DXYα:=(1−α)DXIYI+αDXOYO∈DXY。
定理1。给定域空间
D
X
Y
\mathscr{D}_{XY}
DXY 和
D
X
Y
′
=
{
D
X
Y
α
:
∀
D
X
Y
∈
D
X
Y
,
∀
α
∈
[
0
,
1
)
}
\mathscr{D}_{XY}^{'}=\{D_{XY}^{\alpha}: \forall D_{XY} \in \mathscr{D}_{XY},\forall \alpha \in [0,1)\}
DXY′={DXYα:∀DXY∈DXY,∀α∈[0,1)},则
- D X Y ′ \mathscr{D}_{XY}^{'} DXY′为优先未知空间, D X Y ⊂ D X Y ′ \mathscr{D}_{XY}\subset \mathscr{D}_{XY}^{'} DXY⊂DXY′;
- 如果 D X Y \mathscr{D}_{XY} DXY 是一个优先级未知的空间,则定义 1 和定义 2 是等价的;
- 在 D X Y \mathscr{D}_{XY} DXY 中,OOD检测是强可学习的,当且仅当OOD检测在 D X Y ′ \mathscr{D}_{XY}^{'} DXY′中是可学习的。
定理 1 的第二个结果在可学习性和强可学习性之间架起了桥梁,这意味着如果算法 A \bm {A} A 对于先验未知空间是一致的,那么该算法 A \bm {A} A 可以很好地解决 ID 和 OOD 分布之间的不平衡问题,以及优先级未知问题。基于定理 1,我们关注先验未知空间的理论。此外,为了揭开 OOD 检测的可学习性,我们引入了五个代表性的优先级未知空间:
-
单分布空间 D X Y D X Y \mathscr{D}_{XY}^{D_{XY}} DXYDXY, 对于域 D X Y D_{XY} DXY, D X Y D X Y : = { D X Y α : ∀ α ∈ [ 0 , 1 ) } \mathscr{D}_{XY}^{D_{XY}}:= \{D_{XY}^{\alpha}: \forall \alpha \in[0,1)\} DXYDXY:={DXYα:∀α∈[0,1)}。 总空间 D X Y a l l \mathscr{D}_{XY}^{all} DXYall,由所有的域组成。
-
分隔空间 D X Y s \mathscr{D}_{XY}^{s} DXYs,由满足分隔条件的所有域组成,即对于任意 D X Y ∈ D X Y s , s u p p D X O ∩ s u p p D X I = ∅ D_{XY}\in \mathscr{D}_{XY}^{s}, suppD_{X_O}\cap suppD_{X_I}=\emptyset DXY∈DXYs,suppDXO∩suppDXI=∅,其中 supp 表示支持集。
-
有限ID-分布空间 D X Y F \mathscr{D}_{XY}^{F} DXYF,它是一个先验未知空间,满足 D X Y F \mathscr{D}_{XY}^{F} DXYF 中不同 ID 联合分布 D X I Y I D_{X_IY_I} DXIYI 的个数有限,即 ∣ { D X I Y I : ∀ D X Y ∈ D X Y F } ∣ < + ∞ |\{D_{X_IY_I}: \forall D_{XY} \in \mathscr{D}_{XY}^{F}\}|<+\infty ∣{DXIYI:∀DXY∈DXYF}∣<+∞。
-
基于密度的空间 D X Y μ , b \mathscr{D}_{XY}^{\mu , b} DXYμ,b,它是一个先验未知空间,由若干域组成,满足:对于任意 D X Y D_{XY} DXY,在 s u p p μ supp\mu suppμ中存在 1 / b ≤ f ≤ b 1/b\le f \le b 1/b≤f≤b 且 0.5 ∗ D X I + 0.5 ∗ D X O = ∫ f d μ 0.5 * D_{X_I}+0.5 * D_{X_O} =\int f d\mu 0.5∗DXI+0.5∗DXO=∫fdμ的密度函数 f f f,其中 μ μ μ 是在 X \mathcal{X} X上定义的度量。注意,如果 μ μ μ 是离散的,则 D X D_X DX 是一个离散分布; μ μ μ 为勒贝格测度,则 D X D_X DX为连续分布。
上述代表性空间在实际应用中广泛存在。例如,1) 如果来自不同语义标签的不同风格的图像有明显的不同,那么这些图像可以形成属于单独空间 D X Y s \mathscr{D}_{XY}^s DXYs 的分布;2) 在设计算法时,我们只有有限的 ID 数据集,例如 CIFAR-10、MNIST、SVHN 和 ImageNet 来构建模型。那么,有限 ID 分布空间 D X Y F \mathscr{D}_{XY}^F DXYF 就可以处理这种实际情况。注意,单分布空间是有限 ID 分布空间的一种特殊情况。本文主要讨论这五个空间。
4 OOD检测的不可能定理
在本节中,我们首先给出了 OOD 检测可学习性的必要条件。然后,我们证明这个必要条件在总空间
D
X
Y
a
l
l
\mathscr{D}_{XY}^{all}
DXYall 和独立空间
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs中不成立。
必要条件。我们发现了 OOD 检测可学习性的必要条件,即状态1,由图1中的实验驱动。图 1 的详情见附录 C.2。
条件1(线性条件)。对于任意
D
X
Y
∈
D
X
Y
D_{XY}\in \mathscr{D}_{XY}
DXY∈DXY 和任意
α
∈
[
0
,
1
]
\alpha \in [0,1]
α∈[0,1],
i
n
f
h
∈
H
R
D
α
(
h
)
=
(
1
−
α
)
i
n
f
h
∈
H
R
D
i
n
(
h
)
+
α
i
n
f
h
∈
H
R
D
o
u
t
(
h
)
inf_{h\in \mathcal{H}} R_D^{\alpha}(h) = (1-\alpha) inf_{h\in \mathcal{H}} R_D^{in}(h) +\alpha inf_{h\in \mathcal{H}} R_D^{out}(h)
infh∈HRDα(h)=(1−α)infh∈HRDin(h)+αinfh∈HRDout(h)为了揭示条件1的重要性,定理 2 表明条件 1 是一个必要的和当
D
X
Y
\mathscr{D}_{XY}
DXY 为单分布空间时,OOD 检测可学习性的充分条件。
定理 2。给定一个假设空间H和一个定义域
D
X
Y
D_{XY}
DXY。对于
H
\mathcal{H}
H, OOD 检测在单分布空间
D
X
Y
D
X
Y
\mathscr{D}_{XY}^{D_{XY}}
DXYDXY中是可学习的,并且只有线性条件(即条件 1)成立。
定理 2 表明条件 1 对于 OOD 检测的可学习性很重要。由于单分布空间的简单性,定理 2 表明条件 1 是先验未知空间中 OOD 检测可学习性的必要条件,参见附录
F
F
F 引理 1。
不可能定理。这里,我们首先研究条件1在总空间
D
X
Y
a
l
l
\mathscr{D}_{XY}^{all}
DXYall 中是否成立。如果条件 1 不成立,则 OOD 检测是不可学习的。定理 3 表明条件 1 并不总是满足,特别是当 ID 和 OOD 分布有重叠时:
定义4 (ID和OOD的重叠)。如果存在
σ
σ
σ-有限测度
μ
\mu
μ,使得
D
X
Y
D_{XY}
DXY 相对于
μ
~
\tilde{\mu}
μ~ 是绝对连续的,并且
μ
~
(
A
o
v
e
r
l
a
p
)
>
0
\tilde{\mu}(A_{overlap}) > 0
μ~(Aoverlap)>0,其中
A
o
v
e
r
l
a
p
=
x
∈
X
:
f
I
(
X
)
>
0
和
f
O
(
x
)
>
0
A_{overlap} ={x\in \mathcal{X}: f_I(X) > 0和f_O(x) > 0}
Aoverlap=x∈X:fI(X)>0和fO(x)>0,则我们说域
D
X
Y
D_{XY}
DXY 在 ID 和 OOD 分布之间有重叠。其中
f
I
f_I
fI 和
f
O
f_O
fO 是Radon-Nikodym定理[36]中
D
X
I
D_{X_I}
DXI 和
D
X
O
D_{X_O}
DXO 的代表,
D
X
I
=
∫
f
I
d
μ
~
,
D
X
O
=
∫
f
O
d
μ
~
D_{X_I}= \int f_Id\tilde{\mu}, D_{X_O}=\int f_Od\tilde{\mu}
DXI=∫fIdμ~,DXO=∫fOdμ~定理3。给定假设空间
H
\mathcal{H}
H 和先验未知空间
D
X
Y
\mathscr{D}_{XY}
DXY,如果存在
D
X
Y
∈
D
X
Y
D_{XY} \in \mathscr{D}_{XY}
DXY∈DXY,且 ID 和OOD有重叠,且
i
n
f
h
∈
H
R
D
i
n
(
h
)
=
0
,且
i
n
f
h
∈
H
R
D
i
n
(
h
)
=
0
inf_{h\in\mathcal{H}}R_D^{in}(h) = 0,且 inf_{h\in\mathcal{H}}R_D^{in}(h) = 0
infh∈HRDin(h)=0,且infh∈HRDin(h)=0,则条件 1 不成立。因此,对于
H
\mathcal{H}
H,在
D
X
Y
\mathscr{D}_{XY}
DXY 中 OOD 检测是不可学习的。
定理3清楚地表明,在适当的条件下,如果存在一个 ID 与 OOD 分布重叠的域,则条件 1 不成立。由定理 3 可知,对于任意非平凡假设空间
H
\mathcal{H}
H, OOD 检测在总空间
D
X
Y
a
l
l
\mathscr{D}_{XY}^{all}
DXYall 中是不可学习的。
定理4(总空间的不可能性定理)。总的来说,OOD 检测是不可学习的对于
H
\mathcal{H}
H, 如果
∣
ϕ
∘
H
∣
>
1
|\phi \circ \mathcal{H} |> 1
∣ϕ∘H∣>1,其中,
ϕ
\phi
ϕ 将 ID 标签映射为1,将 OOD 标签映射为2。
由于 ID 和 OOD 分布之间的重叠可能导致条件 1 不成立,因此我们考虑在单独的空间
D
X
Y
a
l
l
\mathscr{D}_{XY}^{all}
DXYall 中研究 OOD 检测的可学习性,其中 ID 和 OOD 分布之间没有重叠。然而,定理 5 表明,即使我们考虑分离空间,在某些情况下,OOD 检测仍然是不可学习的。在引入分离空间的不可能定理,即定理5之前,我们需要做一个温和的假设:
假设1(单独的OOD空间)。假设空间H对于OOD数据是独立的,如果对于每个数据点
x
∈
X
x\in \mathcal{X}
x∈X,存在至少一个假设函数
h
x
∈
H
h_x \in H
hx∈H 使得
h
x
(
x
)
=
K
+
1
h_x(x) = K +1
hx(x)=K+1。
假设 1 表示每个数据点 x 都有可能被检测为 OOD 数据。假设 1 是温和的,可以被许多假设空间满足,例如基于 FCNN 的假设空间(附录K中的命题1)、基于分数的假设空间(附录
K
K
K 中的命题2)和通用核空间。接下来,我们使用
V
a
p
n
i
k
−
C
h
e
r
v
o
n
e
n
k
i
s
(
V
C
)
Vapnik-Chervonenkis (VC)
Vapnik−Chervonenkis(VC) 维数[22]来度量假设空间的大小,并基于
V
C
VC
VC 维研究
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs 内OOD检测的可学习性。
定理5(分离空间的不可能定理)。如果假设1成立,
V
C
d
i
m
(
ϕ
∘
H
)
<
+
∞
,
s
u
p
h
∈
H
∣
{
x
∈
X
:
h
(
X
)
∈
Y
}
=
+
∞
VCdim(\phi \circ \mathcal{H}) < +\infty, sup_{h\in \mathcal{H}}| \{x\in \mathcal{X}: h(X) \in \mathcal{Y}\}= +\infty
VCdim(ϕ∘H)<+∞,suph∈H∣{x∈X:h(X)∈Y}=+∞,则对于
H
\mathcal{H}
H,在单独(seperate)的空间
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs 中 OOD 检测是不可学习的,其中 ID 标签映射到 1,OOD 标签映射到 2。
有限的 VC 维通常意味着监督学习的可学习性。然而,在我们的研究结果中,有限的 VC 维并不能保证在分离空间中 OOD 检测的可学习性,这揭示了 OOD 检测的难度。尽管上述不可能定理令人沮丧,但仍有空间讨论定理 5 中的条件,并找出在单独空间中确保 OOD 检测可学习性的适当条件(参见第5节和第6节)。
5 OOD检测何时能够成功
在这里,我们讨论 OOD 检测在分离空间
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs、有限 ID 分布空间
D
X
Y
F
\mathscr{D}_{XY}^F
DXYF 和基于密度的空间
D
X
Y
μ
,
b
\mathscr{D}_{XY}^{\mu, b}
DXYμ,b 中何时是可学习的。我们首先研究独立空间
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs。
独立空间中的OOD检测。定理 5 表明,如果假设 1 成立,为了保证Dy中OOD检测的可学习性,
V
C
d
i
m
(
ϕ
∘
H
)
=
+
∞
或
s
u
p
h
∈
H
∣
{
x
∈
X
:
h
(
x
)
∈
Y
}
<
+
∞
VCdim(\phi \circ \mathcal{H}) = +\infty或sup_{h\in \mathcal{H}}| \{x\in \mathcal{X}: h(x) \in \mathcal{Y}\}<+\infty
VCdim(ϕ∘H)=+∞或suph∈H∣{x∈X:h(x)∈Y}<+∞ 是必要的。然而,一般情况下,具有适当激活函数的前馈神经网络生成的假设空间具有有限的
V
C
VC
VC 维[37,38]。因此,我们研究
∣
X
∣
<
+
∞
|\mathcal{X}| < +\infty
∣X∣<+∞ 情况下OOD 检测的可学习性,即
s
u
p
h
∈
H
∣
{
x
∈
X
:
h
(
X
)
∈
Y
}
∣
<
+
∞
sup_{h\in \mathcal{H}} |\{x\in \mathcal{X}: h(X)\in \mathcal{Y}\}| < +\infty
suph∈H∣{x∈X:h(X)∈Y}∣<+∞。此外,定理10 还表明,当假设空间由 FCNN 生成时,
∣
X
∣
<
+
∞
|\mathcal{X}| < +\infty
∣X∣<+∞ 是分离空间中 OOD 检测可学习性的充分必要条件。因此,在空间
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs 中,
∣
X
∣
<
+
∞
|\mathcal{X}| < +\infty
∣X∣<+∞ 可能是必需的。
为简单起见,我们首先讨论
K
=
1
K = 1
K=1 的情况,即一类新颖性检测。我们展示在
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs,当
∣
X
∣
<
+
∞
|\mathcal{X}| < +\infty
∣X∣<+∞ 时,OOD检测可学习性的充分必要条件。
定理6。设
K
=
1
,
∣
X
∣
<
+
∞
K = 1, |\mathcal{X}| < +\infty
K=1,∣X∣<+∞。假设假设1成立,且常数函数
h
i
n
:
=
1
∈
H
h^{in}:= 1 \in \mathcal{H}
hin:=1∈H,则对于
H
\mathcal{H}
H,只有当
H
a
l
l
−
{
h
o
u
t
}
⊂
H
\mathcal{H}_{all}- \{h^{out}\} \subset \mathcal{H}
Hall−{hout}⊂H,在
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs 中 OOD 检测是可学习的,其中
H
a
l
l
\mathcal{H}_{all}
Hall 是由所有假设函数组成的假设空间,
h
o
u
t
h^{out}
hout 是
h
o
u
t
:
=
2
h^{out}:= 2
hout:=2 的常数函数,其中 1 表示 ID 数据,2 表示 OOD 数据。
定理 6 给出的
h
i
n
∈
H
h^{in}\in \mathcal{H}
hin∈H 条件是温和的。许多实用的假设空间都满足这一条件,如基于 FCNN 的假设空间(附录
K
K
K 中的命题 1)、基于分数的假设空间(附录
K
K
K 中的命题 2)和基于泛核的假设空间。定理 6 表明,如果
K
=
1
K=1
K=1,并且对于
H
\mathcal{H}
H,在
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs 中 OOD 检测是可学习的,则假设空间
H
\mathcal{H}
H 应该包含几乎所有的假设函数,这意味着如果 OOD 检测在分布不可知的情况下是可学习的,那么就需要一个大容量模型。
然后,我们将定理 6 推广到一般情况,即
K
>
1
K > 1
K>1。当
K
>
1
K > 1
K>1时,我们将首先使用二值分类器
h
b
h^b
hb 对 ID 和 OOD 数据进行分类。然后,对于
h
b
h^b
hb 识别的 ID 数据,使用 ID 假设函数
h
i
n
h^{in}
hin 将其分类到相应的 ID 类中。我们将此策略表述为:给定 ID 分布的假设空间
H
i
n
\mathcal{H}^{in}
Hin 和第 2 节介绍的二分类假设空间
H
b
\mathcal{H}^b
Hb,我们使用
H
i
n
\mathcal{H}^{in}
Hin 和
H
b
\mathcal{H}^b
Hb 构造OOD检测的假设空间
H
\mathcal{H}
H,该空间由满足以下条件的所有假设函数
H
\mathcal{H}
H 组成:存在
h
i
n
∈
H
i
n
h^{in}\in \mathcal{H}^{in}
hin∈Hin 和
h
b
∈
H
b
h^b\in \mathcal{H}^b
hb∈Hb,使得对于任意
x
∈
X
x\in \mathcal{X}
x∈X,
h
(
x
)
=
i
,如果
h
i
n
(
x
)
=
i
且
h
b
(
x
)
=
1
;
否则,
h
(
x
)
=
K
+
1
h(x) = i,如果h^{in}(x) = i且h^b(x) = 1;否则,h(x) = K +1
h(x)=i,如果hin(x)=i且hb(x)=1;否则,h(x)=K+1我们用
H
i
n
∙
H
b
\mathcal{H}^{in} \bullet \mathcal{H}^b
Hin∙Hb 表示由 Eq.(4) 中定义的所有
h
h
h 组成的假设空间。对于损失函数
l
l
l,我们还需要一个附加条件,该条件如下:
条件2。
l
(
y
2
,
y
1
)
≤
l
(
K
+
1
,
y
1
)
l(y_2, y_1) \le l(K +1, y_1)
l(y2,y1)≤l(K+1,y1),对于任意分布中的标签
y
1
,
y
2
∈
Y
y_1,y_2\in \mathcal{Y}
y1,y2∈Y。
定理7。令
∣
X
∣
<
+
∞
,
H
=
H
i
n
∙
H
b
|\mathcal{X}|< +\infty, \mathcal{H= H^{in}\bullet H^b}
∣X∣<+∞,H=Hin∙Hb。如果
H
a
l
l
−
{
h
o
u
t
}
⊂
H
b
\mathcal{H}_{all} -\{h^{out}\} \subset \mathcal{H}^b
Hall−{hout}⊂Hb 和条件 2 成立,则
H
\mathcal{H}
H 在
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs 上的 OOD 检测是可学习的,其中
H
a
l
l
\mathcal{H}_{all}
Hall 和
h
o
u
t
h^{out}
hout 在定理 6 中定义。
有限 ID -分布空间中的 OOD 检测。由于研究人员在算法设计过程中只能收集有限 ID 数据集作为训练数据,因此在有限 ID 分布空间
D
X
Y
F
\mathscr{D}_{XY}^F
DXYF 中,OOD 检测的可学习性值得研究。我们首先在下面展示两个必要的概念。
定义5 (ID一致性)。给定一个域空间
D
X
Y
\mathscr{D}_{XY}
DXY,我们说任意两个域
D
X
Y
∈
D
X
Y
D_{XY}\in \mathscr{D}_{XY}
DXY∈DXY 和
D
X
Y
′
∈
D
X
Y
D_{XY}^{'}\in \mathscr{D}_{XY}
DXY′∈DXY 是 ID 一致性,如果
D
X
I
Y
I
=
D
X
I
Y
I
′
D_{X_IY_I}=D_{X_IY_I}^{'}
DXIYI=DXIYI′。只有当
D
X
Y
D_{XY}
DXY 和
D
X
Y
′
D_{XY}^{'}
DXY′是 ID 一致性时,我们才用
∼
\sim
∼ 表示 ID 一致性,即
D
X
Y
∼
D
X
Y
′
D_{XY} \sim D_{XY}^{'}
DXY∼DXY′。
很容易验证ID一致性~是一个等价关系。因此,我们定义集合
[
D
X
Y
]
:
=
{
D
X
Y
′
∈
D
X
Y
:
D
X
Y
∼
D
X
Y
′
)
[D_{XY}]:=\{D_{XY}^{'} \in \mathscr{D}_{XY}: D_{XY} \sim D_{XY}^{'})
[DXY]:={DXY′∈DXY:DXY∼DXY′) 为空间
D
X
Y
\mathscr{D}_{XY}
DXY 的等价类。
条件3(兼容性)。对于任意等价类
[
D
X
Y
′
]
[D_{XY}^{'}]
[DXY′] 关于
D
X
Y
\mathscr{D}_{XY}
DXY 且任意
ϵ
>
0
\epsilon > 0
ϵ>0,存在一个假设函数
h
ϵ
∈
H
h_{\epsilon} \in \mathcal{H}
hϵ∈H 使得对于任意定义域
D
X
Y
∈
[
D
X
Y
′
]
D_{XY} \in [D_{XY}^{'}]
DXY∈[DXY′],
h
ϵ
∈
{
h
′
∈
H
:
R
D
o
u
t
(
h
′
)
≤
i
n
f
h
∈
H
R
D
o
u
t
(
h
)
+
ϵ
}
∩
{
h
′
∈
H
:
R
D
i
n
(
h
′
)
≤
i
n
f
h
∈
H
R
D
i
n
(
h
)
+
ϵ
}
h_{\epsilon}\in \{h^{'}\in \mathcal{H}:R_D^{out}(h^{'}) \le inf_{h\in \mathcal{H}} R_D^{out} (h) +\epsilon \} \\\cap \{h^{'}\in \mathcal{H}:R_D^{in}(h^{'})\le inf_{h\in \mathcal{H}}R_D^{in}(h) + \epsilon\}
hϵ∈{h′∈H:RDout(h′)≤infh∈HRDout(h)+ϵ}∩{h′∈H:RDin(h′)≤infh∈HRDin(h)+ϵ}
在附录
F
F
F 中,引理 2 暗示条件 3 是条件 1 的一般版本。接下来,定理 8 指出条件 3 是空间
D
X
Y
F
\mathscr{D}_{XY}^F
DXYF 中的充分必要条件。
定理8。假设
X
X
X 是一个有界集合。对于
H
\mathcal{H}
H,在有限 ID 分布空间
D
X
Y
F
\mathscr{D}_{XY}^F
DXYF 中,只有在相容条件(即条件3)成立的情况下,OOD 检测是可学习的。此外,对于任意
θ
∈
(
0
,
1
)
\theta \in (0,1)
θ∈(0,1),学习速率
ϵ
c
o
n
s
(
n
)
\epsilon_{cons}(n)
ϵcons(n)可以达到
O
(
1
n
1
−
θ
)
O(1\sqrt{n^{1-\theta}})
O(1n1−θ)。
定理 8 表明,在算法设计过程中,如果没有兼容性条件,OOD 检测就不能成功。定理 8 还表明,条件 3 对于 OOD 检测的可学习性至关重要。这促使我们研究在相容性条件成立的情况下,OOD 检测是否可以在更一般的空间(例如基于密度的空间)中成功。
基于密度的空间OOD检测。为了确保条件 3 成立,我们考虑了学习理论中的一个基本假设——可实现性假设(见附录D.2),即对于任何
D
X
Y
∈
D
X
Y
D_{XY} \in \mathscr{D}_{XY}
DXY∈DXY,存在
h
∗
∈
H
使得
R
D
(
h
∗
)
=
0
h^* \in \mathcal{H} 使得R_D(h^*) = 0
h∗∈H使得RD(h∗)=0。我们发现,在基于密度的空间
D
X
Y
μ
,
b
\mathscr{D}_{XY}^{\mu,b}
DXYμ,b 中,可实现性假设可以得出相容条件(即条件3)。根据这一观察,我们可以证明以下定理:
定理9。给定一个基于密度的空间
D
X
Y
μ
,
b
\mathscr{D}_{XY}^{\mu,b}
DXYμ,b,如果
μ
(
X
)
<
+
∞
\mu(\mathcal{X}) < +\infty
μ(X)<+∞,可实现性假设成立,则当
H
\mathcal{H}
H 具有有限的 Natarajan 维数[21]时,对于
H
\mathcal{H}
H,OOD 检测是可学习在
D
X
Y
μ
,
b
\mathscr{D}_{XY}^{\mu,b}
DXYμ,b. 此外,对于任意
θ
∈
(
0
,
1
)
θ \in (0,1)
θ∈(0,1),学习率
ϵ
c
o
n
s
(
n
)
\epsilon_{cons}(n)
ϵcons(n)可以达到
O
(
1
/
n
1
−
θ
)
O(1/\sqrt{n^{1-\theta}})
O(1/n1−θ)。
为了进一步考察可实现性假设的重要性和必要性,定理 11 表明,在一些实际场景中,可实现性假设是基于密度的空间中 OOD 检测可学习性的充分必要条件。因此,在一些实际场景中,OOD 检测的可学习性可能离不开可实现性假设。
6 理论联系实践
在第5节。我们已经展示了理论上可以解决 OOD 检测问题的成功场景。在本节中,我们将讨论如何将提出的理论应用于两个具有代表性的假设空间-基于神经网络的假设空间和基于分数的假设空间。
全连接神经网络。给定序列
q
=
(
l
1
,
l
2
,
…
)
,
l
g
)
q = (l_1, l_2,…), l_g)
q=(l1,l2,…),lg),其中
l
i
l_i
li 和
g
g
g 为正整数,且
g
>
2
g > 2
g>2,我们用
g
g
g 表示神经网络的深度,用
l
i
l_i
li 表示第i层的宽度。在选择激活函数
σ
\sigma
σ 后,我们可以根据序列
q
q
q 得到 FCNN 的结构,设
f
w
,
b
\bm{f}_{w,b}
fw,b 为 FCNN 生成的权重为
w
w
w 且偏置的函数
b
b
b. 定义基于 FCNN 的评分函数空间为:
F
g
σ
:
=
{
f
w
,
b
:
∀
权重
w
,
∀
偏置
b
}
F_g^{\sigma}:= \{\bm{f}_{w,b}: \forall 权重 w, \forall 偏置 b\}
Fgσ:={fw,b:∀权重w,∀偏置b}。另外,为简单起见,给定任意两个序列
q
=
(
l
1
,
.
.
.
l
g
)
q = (l_1,... l_g)
q=(l1,...lg) 和
q
′
=
(
l
1
′
,
.
.
.
,
l
g
′
′
)
q^{'} = (l_1^{'},...,l^{'}_{g^{'}})
q′=(l1′,...,lg′′) 时,用
q
≲
q
′
q\lesssim q^{'}
q≲q′ 表示下列方程和不等式:
1)
g
≤
g
′
,
l
1
=
l
1
′
,
l
g
=
l
g
′
′
;
2
)
l
i
≤
l
i
′
,
∀
i
=
1
,
.
.
.
,
g
−
1
;
3
)
l
g
−
1
≤
l
i
′
,
∀
i
=
g
,
.
.
.
g
′
−
1
g \le g^{'}, l_1=l_1^{'},l_g=l_{g^{'}}^{'} ;2) l_i \le l_i^{'}, \forall i =1,...,g-1; 3) l_{g-1}\le l_i^{'},\forall i= g,...g^{'} - 1
g≤g′,l1=l1′,lg=lg′′;2)li≤li′,∀i=1,...,g−1;3)lg−1≤li′,∀i=g,...g′−1.
在附录L中,引理 10 显示
q
≲
q
′
⇒
F
q
σ
⊂
F
q
′
σ
q\lesssim q^{'}\Rightarrow \mathcal{F}_q^{\sigma} \subset \mathcal{F}_{q^{'}}^{\sigma}
q≲q′⇒Fqσ⊂Fq′σ…我们使用
≲
\lesssim
≲ 来比较 FCNN 的大小。
基于 FCNN 的假设空间。让
l
g
=
K
+
1
l_g = K + 1
lg=K+1。基于 FCNN 的评分函数空间
F
q
σ
\mathcal{F}_q^{\sigma}
Fqσ 可以归纳出基于 FCNN 的假设空间。对于任意
f
w
,
b
∈
F
q
σ
\bm{f}_{w,b}\in \mathcal{F}_q^{\sigma}
fw,b∈Fqσ,诱导假设函数为:
h
w
,
b
:
=
a
r
g
m
a
x
k
∈
{
1
,
.
.
.
,
K
+
1
}
f
w
,
b
k
h_{w,b}:= arg max_{k\in\{1,...,K+1\}} f^k_{w,b}
hw,b:=argmaxk∈{1,...,K+1}fw,bk其中
f
w
,
b
k
f^k_{w,b}
fw,bk 为
f
w
,
b
\bm{f}_{w,b}
fw,b的第 k 个坐标。将基于 FCNN 的假设空间定义为
H
:
=
{
h
w
,
b
:
∀
权重
w
,
∀
偏置
b
}
\mathcal{H}:= \{h_{w,b}: \forall 权重 w, \forall 偏置 b\}
H:={hw,b:∀权重w,∀偏置b}。
基于分数的假设空间。许多 OOD 检测算法都是通过使用参考策略。即给定一个阈值
λ
\lambda
λ,一个评分函数空间
F
l
⊂
{
f
:
X
→
R
l
}
F_l \subset \{f: \mathcal{X}→\mathbb{R}^l\}
Fl⊂{f:X→Rl} 和一个评分函数
E
:
F
l
→
R
E:\mathcal{F}_l→\mathbb{R}
E:Fl→R,则当且仅当
E
(
f
(
x
)
)
≥
λ
E(f(x)) \ge \lambda
E(f(x))≥λ 时,将 x 视为 ID数据。我们引入几个具有代表性的评分函数
E
E
E 如下:对于任意
f
=
[
f
1
,
…
,
f
l
]
⊤
\bm{f} = [f^1,…, f^l]^{\top}
f=[f1,…,fl]⊤;
基于
s
o
f
t
m
a
x
softmax
softmax 的函数[7]和温度缩放函数[8]:
λ
∈
(
1
l
,
1
)
,
T
>
0
\lambda \in (\frac{1}{l},1), T > 0
λ∈(l1,1),T>0,
E
(
f
)
=
m
a
x
k
∈
{
1
,
.
.
.
,
l
}
e
x
p
(
f
)
∑
c
=
1
l
e
x
p
(
f
c
)
,
E
(
f
)
=
m
a
x
k
∈
{
1
,
.
.
.
,
l
}
e
x
p
(
f
k
/
T
)
∑
c
=
1
l
e
x
p
(
f
c
/
T
)
(
5
)
E (\bm{f})=max_{k\in\{1,...,l\}}\frac{exp(f)}{\sum_{c=1}^lexp(f^c)},E(\bm{f}) =max_{k\in \{1,...,l\}}\frac{exp(f^k/T)}{\sum_{c=1}^lexp(f^c/T)}(5)
E(f)=maxk∈{1,...,l}∑c=1lexp(fc)exp(f),E(f)=maxk∈{1,...,l}∑c=1lexp(fc/T)exp(fk/T)(5)
基于能量的函数[23]:
λ
∈
(
0
,
+
∞
)
,
T
>
0
\lambda \in (0,+\infty),T > 0
λ∈(0,+∞),T>0
E
(
f
)
=
T
l
o
g
∑
c
=
1
l
e
x
p
(
f
c
/
T
)
(
6
)
E(\bm{f}) = T log\sum_{c=1}^l exp (f^c/T)(6)
E(f)=Tlogc=1∑lexp(fc/T)(6)使用
E
,
λ
和
f
∈
F
q
σ
E, \lambda 和f \in \mathcal{F}_q^{\sigma}
E,λ和f∈Fqσ,我们有一个分类器:
h
f
,
E
λ
(
x
)
=
1
,如果
E
(
f
(
x
)
)
≥
λ
;
否则,
h
f
,
E
λ
(
x
)
=
2
h_{\bm{f}, E}^{\lambda} (x) = 1,如果 E(\bm{f}(x)) \ge \lambda;否则,h_{\bm{f},E}^{\lambda}(x) = 2
hf,Eλ(x)=1,如果E(f(x))≥λ;否则,hf,Eλ(x)=2,其中 1 表示 ID 数据,2 表示 OOD 数据。由此生成由所有
h
f
,
E
λ
h_{\bm{f},E}^{\lambda}
hf,Eλ 组成的二元分类假设空间
H
b
\mathcal{H}^b
Hb。我们定义
H
q
,
E
σ
,
λ
:
=
{
h
f
,
E
λ
,
∀
f
∈
F
q
σ
)
H_{q,E}^{\sigma, \lambda}:= \{h_{\bm{f},E}^{\lambda},\forall f \in \mathcal{F}_q^{\sigma})
Hq,Eσ,λ:={hf,Eλ,∀f∈Fqσ)。
不同假设空间下OOD检测的可学习性。接下来,我们给出了我们的理论在上述两个实际和重要的假设空间
H
q
σ
\mathcal{H}_q^{\sigma}
Hqσ 和
H
q
,
E
σ
,
λ
H_{q,E}^{\sigma, \lambda}
Hq,Eσ,λ 的应用
定理10。假设条件 2 成立,假设空间
H
\mathcal{H}
H 是FCNN-based 或 基于分数的,
H
=
H
q
σ
或
H
=
H
i
n
∙
H
b
,
H
i
n
\mathcal{H}=\mathcal{H}_q^{\sigma}或 \mathcal{H} = \mathcal{H}^{in} \bullet \mathcal{H}^b, \mathcal{H}^{in}
H=Hqσ或H=Hin∙Hb,Hin 是一个ID 假设空间,
H
b
=
H
q
,
E
σ
,
λ
\mathcal{H}^b=\mathcal{H}_{q,E}^{\sigma, \lambda}
Hb=Hq,Eσ,λ,
H
=
H
i
n
∙
H
b
\mathcal{H}=\mathcal{H}^{in}\bullet \mathcal{H}^b
H=Hin∙Hb由下面 Eq .(4)引入,这里
E
E
E 在(5)或(6)式中引入,
存在一个序列
q
=
(
l
1
,
…
,
l
g
)
q = (l_1,…,l_g)
q=(l1,…,lg),使得当且仅当
∣
X
∣
<
+
∞
|\mathcal{X}| < +\infty
∣X∣<+∞时,在独立空间
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs 中可以学习 OOD 检测。
更进一步,如果
∣
X
∣
<
+
∞
|\mathcal{X}| < +\infty
∣X∣<+∞,则存在一个序列
q
=
(
l
1
,
…
,
l
g
)
q = (l_1,…,l_g)
q=(l1,…,lg),使得对于任何序列
q
′
q^{'}
q′ 满足
q
≲
q
′
q \lesssim q^{'}
q≲q′,对于
H
\mathcal{H}
H,在
D
X
Y
s
\mathscr{D}_{XY}^s
DXYs 中OOD检测是可学习的。
定理10表明:1)当假设空间为基于fcnn或基于分数的假设空间时,有限的特征空间是分离空间中OOD检测可学习性的充分必要条件;2)更大的 FCNN 架构更有可能实现的可学习性独立空间的OOD检测。注意,当我们选择公式(5)或(6)作为评分函数
E
E
E时,定理10也表明所选择的评分函数
E
E
E 能够保证OOD检测的可学习性,这是对代表性作品[8,23,7]的理论支持。此外,定理11也为这些工作在基于密度的空间,当
K
=
1
K = 1
K=1 时,提供了理论支持。
定理11。假设
D
X
Y
μ
,
b
\mathscr{D}_{XY}^{\mu,b}
DXYμ,b 中的每个域
D
X
Y
D_{XY}
DXY 都是可得的,即
a
r
g
m
i
n
h
∈
H
R
D
(
h
)
≠
∅
arg min_{h\in \mathcal{H}} R_D(h) \neq \emptyset
argminh∈HRD(h)=∅ (有限离散域满足此条件)。设
K
=
1
K = 1
K=1,假设空间
H
\mathcal{H}
H 是基于分数的(
H
=
H
q
,
E
σ
,
λ
\mathcal{H}=\mathcal{H}_{q,E}^{\sigma,\lambda}
H=Hq,Eσ,λ,其中
E
E
E 在等式中(5)或(6))或基于 FCNN 的(
H
=
H
q
σ
\mathcal{H}=\mathcal{H}_q^{\sigma}
H=Hqσ),如果
μ
(
X
)
<
+
∞
\mu(\mathcal{X}) < +\infty
μ(X)<+∞,则以下四个条件等价:
D
X
Y
μ
,
b
中
H
可学习性
⟺
条件
1
⟺
可实现性的假设
⟺
条件
3
\mathscr{D}_{XY}^{\mu,b} 中 \mathcal{H}可学习性\Longleftrightarrow 条件1 \Longleftrightarrow 可实现性的假设\Longleftrightarrow 条件 3
DXYμ,b中H可学习性⟺条件1⟺可实现性的假设⟺条件3如果函数空间
F
q
σ
\mathcal{F}_q^{\sigma}
Fqσ 由卷积神经网络生成,定理11仍然成立。
多类案件的重叠与利益。我们研究当假设空间基于 FCNN 或基于分数时,如果 ID 和 OOD 分布之间存在重叠会发生什么?
定理12。设
K
=
1
K = 1
K=1,假设空间
H
\mathcal{H}
H 是基于分数的(
H
=
H
q
,
E
σ
,
λ
\mathcal{H} =\mathcal{H}_{q,E}^{\sigma, \lambda}
H=Hq,Eσ,λ,其中
E
E
E 在式(5)或(6))或基于 FCNN 的(
H
=
H
q
σ
\mathcal{H} = \mathcal{H}_q^{\sigma}
H=Hqσ)。给定一个先验未知空间
D
X
Y
\mathscr{D}_{XY}
DXY,如果存在一个域
D
X
Y
∈
D
X
Y
D_{XY}\in \mathscr{D}_{XY}
DXY∈DXY,其 ID 和 OOD 分布有重叠(见定义4),则对于
H
\mathcal{H}
H,在域空间
D
X
Y
\mathscr{D}_{XY}
DXY 中OOD检测是不可学习的。
当
K
=
1
K = 1
K=1,假设空间为基于 FCNN 或基于分数时,定理12表明,ID 和 OOD 分布的重叠是OOD 检测不可学习的充分条件。定理12在两个条件下生根,即:
i
n
f
h
∈
H
R
D
i
n
(
h
)
=
0
和
i
n
f
h
∈
H
R
D
o
u
t
(
h
)
=
0
inf_{h\in \mathcal{H}}R_D^{in}(h) = 0 和 inf_{h\in \mathcal{H}}R_D^{out}(h) = 0
infh∈HRDin(h)=0和infh∈HRDout(h)=0。但是,当
K
>
1
K > 1
K>1 时,如果 ID 分布
D
X
I
Y
I
\mathscr{D}_{X_IY_I}
DXIYI,在 ID 类之间存在重叠,则可以保证
i
n
f
h
∈
H
R
D
i
n
(
h
)
>
0
inf_{h\in \mathcal{H}}R_D^{in}(h) > 0
infh∈HRDin(h)>0。通过这一观察,我们推测当
K
>
1
K > 1
K>1 时,即使假设空间是基于 FCNN 或基于分数的,OOD 检测在某些特殊情况下是可学习的,并且存在重叠。
7 讨论
了解远端检测。已有许多研究[7,39]研究了远ood检测问题。现有基准包括:1)MNIST[40]作为ID数据集,Texture[41]、CIFAR-10[42]或Place365[43]作为 OOD 数据集;2) CIFAR-10[42]作为ID数据集,MNIST[40]或FashionMNIST[43]作为 OOD 数据集。在 far-OOD 情况下,我们发现 ID 和 OOD 数据集具有不同的语义标签和不同的样式。从理论上讲,我们可以定义远距ood检测任务如下:对于
τ
>
0
\tau > 0
τ>0,域空间
D
X
Y
\mathscr{D}_{XY}
DXY为
τ
−
f
a
r
O
O
D
\tau-far OOD
τ−farOOD,如果对于任意域
D
X
Y
∈
D
X
Y
D_{XY}\in \mathscr{D}_{XY}
DXY∈DXY,
d
i
s
t
(
s
u
p
p
D
X
O
,
s
u
p
p
D
X
I
)
>
τ
dist(suppD_{X_O},suppD_{X_I})>\tau
dist(suppDXO,suppDXI)>τ定理7、8和10表明,在适当的假设空间下,
τ
−
f
a
r
O
O
D
\tau-far OOD
τ−farOOD 检测是可学习的。在定理7中,条件
∣
X
∣
<
+
∞
|\mathcal{X}| < +\infty
∣X∣<+∞ 是分离空间的必要条件。然而,我们可以证明,在 far-ODD 情况下,当
H
i
n
\mathcal{H}^{in}
Hin 对于 ID 分布是不可知论的 PAC 可学习时,定理 7 的结果仍然成立,如果条件
∣
X
∣
<
+
∞
|\mathcal{X}|< +\infty
∣X∣<+∞ 被一个较弱的条件
X
\mathcal{X}
X 是紧的代替。此外,值得注意的是,当
H
i
n
\mathcal{H}^{in}
Hin 对于ID 分布是不可知的 PAC 可学习的,
X
\mathcal{X}
X 是紧凑的,基于 KNN 的 OOD 检测算法[44]在
τ
−
f
a
r
O
O
D
\tau-far OOD
τ−farOOD 情况下是一致的。
了解近ood检测。当 ID 和 OOD 数据集具有相似的语义或样式时,OOD 检测任务变得更具挑战性。[45,46]考虑这个问题,并将其命名为 near-OOD 检测。现有的基准包括1) MNIST[40]作为ID数据集,Fashion-MNIST[43]或Not-MNIST[47]作为 OOD 数据集;2) CIFAR-10[42]作为ID数据集,CIFAR-100[48]作为 OOD 数据集。从理论上讲,一些 near-OOD 的任务可能存在重叠条件,4.定义;因此,定理3和定理12暗示 near-OOD 检测可能是不可学习的。发展一种理论来理解 near-OOD 探测的可行性仍然是一个悬而未决的问题。
理解一类新颖性检测。在一类新颖性检测和语义异常检测(即
K
=
1
K = 1
K=1 )中,定理 6 揭示了需要使用大容量模型来保证在分离空间中的良好泛化。定理 3 和定理 12 表明,在单类情况下,我们应该尽量避免 ID 和 OOD 分布之间的重叠。如果不能避免重叠,我们建议考虑多类 OOD 检测,而不是单类 OOD 检测。此外,在基于密度的空间中,定理 11 表明,为了保证 OOD 的可学习性,需要选择一个合适的满足可实现性假设的假设空间基于密度的空间检测。一般来说,大容量模型有助于保证可实现性假设成立。
8 相关工作
下面我们简要回顾一下相关的理论工作。相关工作详见附录A。
OOD检测理论。[49]通过拟合优度检验和典型集假设理解了OOD检测,并认为最小的密度估计误差可能导致OOD检测失败,而无需假设ID和OOD分布之间存在重叠。Beyond[49],[50]为设计可证明的OOD检测算法开辟了新的途径。与[50,49]相比,我们的理论侧重于OOD检测的PAC可学习理论,并确定了OOD检测可学习的几个必要和充分条件,为OOD检测的理论研究打开了一扇门。
开集学习理论。[51]和[29,52]分别提出了开放集检测和开放集域自适应的不可知PAC学习边界。遗憾的是,[29,51,52]都要求在训练过程中测试数据是不可缺少的。为了研究在训练过程中不访问测试数据的开放集学习(OSL),[24]提出并研究了OSL的几乎不可知的PAC可学习性。然而,[24]中使用的假设非常强且不切实际。
带有拒绝选项的分类学习理论。许多作品[53,54]也研究了带有拒绝选项的分类(CwRO)问题,这在某些情况下类似于OOD检测。[55,56,57,58,59]研究了CwRO的学习理论,提出了CwRO 的 PAC 学习边界。然而,与我们在OOD检测方面的工作相比,现有的CwRO理论主要关注ID风险
R
D
i
n
R_D^{in}
RDin (即 ID 数据被错误分类的风险)如何受到特殊拒绝规则的影响。我们的理论不仅关注 ID 风险,也关注 OOD 风险。
健壮的统计数据。在稳健统计领域[60],研究人员旨在提出能够减轻异常值负面影响的估计器和测试器(类似于 OOD 数据)。所提出的估计量应该独立于数据的潜在高维数[61,62,63]。该领域的现有工作[64,65,66]通过构造估计量和证明不可能结果,确定并解决了离群稳健统计的统计限制。在未来,研究基于鲁棒统计的 OOD 检测鲁棒性是一个很有前途和有趣的研究方向。
PQ学习理论。在某些情况下,PQ 学习理论[67,68]可以被视为半监督或换向学习案例中 OOD 检测的 PAC 理论,即在训练过程中需要测试数据。此外,[67,68]旨在给出可变现假设下的 PAC 估计[21]。我们的理论不仅研究了可实现情况下的资产价值估计,而且还研究了在可实现假设下比资产价值估计更困难的其他情况。
9 结论及未来工作
检测 OOD 数据对提高机器学习的可靠性具有重要意义。然而,很少有作品从理论上讨论 OOD 检测,这阻碍了 OOD 检测算法在现实世界中的应用。在本文中,我们首次提出了用于 OOD 检测的 PAC 理论。我们的结果表明,我们不能期望一个普遍一致的算法来处理 OOD 检测中的所有场景。然而,在某些情况下,OOD 检测仍然有可能是可学习的。例如,当我们设计 OOD 检测算法时,我们通常只有有限的 ID 数据集。在这个真实场景中,定理 8 提供了 OOD 检测成功的充分必要条件。我们的理论揭示了 OOD 检测可学习性的许多必要和充分条件,从而为 OOD 检测的可学习性研究打开了一扇门。未来,我们将重点研究基于鲁棒统计的 OOD 检测的鲁棒性[64,69]。