论文链接 link.
Abstract
本文使用一组domain-invariant predictors来近似(proxy)未知域的真实标签;由于所得风险估计的误差取决于近似(proxy)模型的目标风险,本文研究了域不变表示的泛化,并表明隐性表示(latent representation)的复杂性对目标风险有显著影响。从实验角度,本文方法(1)实现了领域适应模型的自调整,(2)准确估计了分布迁移下给定模型的目标误差。其他应用包括model selection、deciding early stopping 和 error detection。
文章目录
1. Introduction
本文采用一个“check” DIR (domain-invariant representations) 模型集近似(proxy)未知域的真实标签。若存在一个“好的”领域适应模型,即这些模型在源域上误差低且在目标域上误差也可能很低,而那些模型与要评估的模型 h h h不一致,那么 h h h的目标风险就有可能很高,因此不应该相信它。
这个想法依赖于良好的领域适应模型,即检查模型应该在目标分布上有很好的预测,并且彼此之间不会有太大的分歧。作者观察到,一般情况下,DIR对模型复杂度的敏感度要比在源域上的监督学习高得多。表征编码器(representation encoder)的复杂度是目标泛化和选择检查模型集的关键,这就引出了一个重要的模型选择问题。对于深度神经网络来说,这个模型选择问题实质上是指如何将网络优化划分为编码器和预测器部分。然而,这个模型选择理想地要求对目标泛化进行估计,本文正在开发这个模型。
通过本文的目标误差估计框架,可以让DIR模型进行自调整,找到最优的模型复杂度。所得模型既实现了良好的目标泛化,而且很好地估计其他模型的目标误差。本文方法适用于估计单个或一类模型的目标误差,以及预测点向误差(point-wise error)。因此,它可以用于判断可靠性和模型选择等等。本文在情感分析(亚马逊评论数据集)、数字分类(MNIST、MNIST-M、SVHN)和一般对象分类(Office-31)上检验理论和算法。本文的贡献有如下几点:
- 开发了一种通用方法,用于估计给定模型在新数据分布上的误差。
- 从理论上和经验上证明了嵌入复杂性(embedding complexity)对于DIR的重要作用。
- 实验结果验证了本文的分析,并表明所提出的方法在实践中运行良好。
2. Related Work
Estimating risk with distribution shifts 本文利用领域不变的分类器近似(proxy)目标标签。本文方法具有通用性,更够预测领域适应和一般监督模型的目标风险。
Domain-invariant representations DIR是通过最小化源数据和目标数据的嵌入之间的分歧来学习的,现有的学习DIR的方法在使用的分歧度量( H △ H H\bigtriangleup H H△H、MMD、Wasserstein distance…)上有所不同。
3. Unsupervised Domain Adaptation
无监督领域适应目的是寻找一个假设(hypothesis)
h
:
X
→
Y
h: X\rightarrow Y
h:X→Y,其中
h
∈
H
h\in H
h∈H,其能够通过损失方程l最小化目标域的风险。
R
T
(
h
)
=
E
x
,
y
∼
p
T
[
l
(
h
(
x
)
,
y
)
]
R_T(h)=E_{x,y\sim p_T}[l(h(x),y)]
RT(h)=Ex,y∼pT[l(h(x),y)]
3.1. Domain-invariant Representations
领域适应的常用规则:在源域和目标域上学习一个联合嵌入(joint embeding) g : X → Z g: X\rightarrow Z g:X→Z——将源于和目标域分布映射到隐空间 Z Z Z中并对齐(results in a DIR),对后一个分类器 f : Z → Y f: Z\rightarrow Y f:Z→Y就能够从源域泛化到目标域。
在假设 h = f g : = f ∘ g h=fg:=f\circ g h=fg:=f∘g上,将源域和目标域映射到Z中后( Z = g ( X ) ∈ Z Z=g(X)\in Z Z=g(X)∈Z),最小化源域分布 p S g ( Z ) p^ g_S(Z) pSg(Z)和目标域分布 p T g ( Z ) p^g_T(Z) pTg(Z)的分歧(divergence) d d d,得到目标方程:
min f ∈ F , g ∈ G R S ( f g ) + α d ( p S g ( Z ) , p T g ( Z ) ) \min_{f\in F,g\in G}R_S(fg)+\alpha d(p^ g_S(Z),p^ g_T(Z)) f∈F,g∈GminRS(fg)+αd(pSg(Z),pTg(Z))
本文中标记整体模型 h h h的假设类为 H H H,嵌入类为 G G G,预测器类为 F F F。
3.2. Upper Bounds on the Target Risk
H
△
H
−
d
i
v
e
r
g
e
n
c
e
H\bigtriangleup H-divergence
H△H−divergence:
目标风险上界:
Ganin et al. (2016); Johansson et al. (2019)的改进,将Theorem 2 应用到假设集
F
F
F上,其能够把被编码器
g
g
g诱导的表征空间
Z
Z
Z(这里应该可以理解为训练过程中g把样本映射到的空间——
Z
Z
Z)映射到输出空间:
R
T
(
f
g
)
⩽
R
S
(
f
g
)
+
d
F
△
F
(
p
S
g
(
Z
)
,
p
T
g
(
Z
)
)
+
λ
F
(
g
)
R_T(fg)\leqslant R_S(fg)+d_{F\bigtriangleup F}(p^ g_S(Z),p^ g_T(Z))+\lambda_F(g)
RT(fg)⩽RS(fg)+dF△F(pSg(Z),pTg(Z))+λF(g)
其中
λ
F
(
g
)
\lambda_F(g)
λF(g)是固定
g
g
g的最好假设风险
λ
F
(
g
)
:
=
inf
f
′
∈
F
[
R
S
(
f
′
g
)
+
R
T
(
f
′
g
)
]
\lambda_F(g):=\inf_{f'\in F}[R_S(f'g)+R_T(f'g)]
λF(g):=f′∈Finf[RS(f′g)+RT(f′g)]
F △ F F\bigtriangleup F F△F分歧隐性的依赖于固定的 g g g,当 g g g能够提供合适的表征的时候能足够小。但是如果 g g g造成了错误的对齐,最好假设风险 λ F ( g ) \lambda_F(g) λF(g)不论对任何 F F F都大。
4. Estimating Target Risk: Main Idea
本文目标时估计模型
h
h
h在目标分布
p
T
p_T
pT上的误差(不需要目标标签)。
h
t
r
u
e
h_{true}
htrue为真实标签
R
T
(
h
)
=
R
T
(
h
,
h
t
r
u
e
)
⩽
R
T
(
h
,
h
∗
)
+
R
T
(
h
∗
)
,
h
∗
=
arg
inf
h
∈
P
R
T
(
h
)
R_T(h)=R_T(h,h_{true})\leqslant R_T(h,h^*)+R_T(h^*), h^*=\arg \inf_{h\in P}R_T(h)
RT(h)=RT(h,htrue)⩽RT(h,h∗)+RT(h∗),h∗=argh∈PinfRT(h)
本文主要想法是得到一个
R
T
(
h
)
R_T(h)
RT(h)上界,通过一个代理模型集
P
P
P中的候选替换上式中的
h
∗
h^*
h∗,这个
P
P
P也称为check model。Lemma 3度量了假设
h
h
h和一个check model
h
′
∈
P
h'\in P
h′∈P的最大分歧(maximal disagreement (risk)),第二项度量
h
′
h'
h′ 有多好。
P
P
P 必须包含一个好的假设,才能使Lemma 3中的约束tight,同时,
P
P
P也不应包含任何不必要的disagreeing假设,否则代理风险(proxy risk)会过大。
Connection to Domain Adaptation 代理风险可以通过经验估计。如果偏差项(bias term)小,即check model中存在良好的假设,那么代理风险本身就是对 R T ( h ) R_T(h) RT(h)上界的良好估计。剩下的就是确定集合 P P P。
Lemma 4.
Lemma 4将本文方法和DA联系起来:检查模型的目标风险会影响通过代理风险估计的风险的误差。(the target risk of the check models affects the error of estimating risk via the proxy risk.)这促使DA模型作为检查模型 因为DA模型的设计就是为了使目标风险最小化。
检查模型的目标风险是 R T ( h ′ ) R_T(h') RT(h′),代理风险是 R T ( h , h ′ ) R_T(h,h') RT(h,h′),之所以DA模型能当作检查模型,是因为检查模型 h ′ h' h′ 的目的是为了最小化自身目标风险 R T ( h ′ ) = R T ( h ′ , h t r u e ) R_T(h')=R_T(h',h_{true}) RT(h′)=RT(h′,htrue),而DA模型的目的也是最小化自身的目标风险 R T ( h ) = R T ( h , h t r u e ) R_T(h)=R_T(h,h_{true}) RT(h)=RT(h,htrue)。
在Section 7,P表示所有实现低 DIR目标(low DIR objective)的DIR模型。
5. Understanding the Adaptability of DIR
我们旨在更好地理解是什么影响了DIR的目标风险和目标上的模糊性。公式(4)强调了预测模型 F F F复杂度的影响,和通过嵌入 g g g对齐质量的影响。下属样例体现了嵌入集 G G G的复杂度的影响。
Toy Example. Fig 2b中更复杂的嵌入能够实现一个0值得DIR目标值(公式2,个人认为应该指分布的距离d),同时最大化目标风险(Fig 2a线性模型
2
ϵ
2\epsilon
2ϵ 的DIR值,但目标风险最小)。因此,过于强大的嵌入类
G
G
G会增加模糊性、差异性,从而增加目标风险。
Empirical Effect of Complexity. Fig 4显示编码器的复杂度对目标风险有显著影响。相比之下,在Fig 3a中,预测器集的复杂度影响就较弱。Fig 3b是在源域上的泛化误差,可以看出“普通”监督学习不怎么受模型复杂度影响(编码器和预测器的复杂度)。(预测器 f f f的?) 模型复杂度对监督学习过程的影响较弱(Fig 3),DIR对嵌入类 G G G的复杂度敏感(Fig 4)
5.1. Bounds for Domain-invariant Representations
本节探索目标风险的约束如何取决于嵌入集的复杂性。
直接将定理2应用于组合
H
=
F
G
H=FG
H=FG(
H
△
H
→
(
F
G
)
△
(
F
G
)
H\bigtriangleup H \rightarrow (FG)\bigtriangleup (FG)
H△H→(FG)△(FG)),并没有凸显embedding
G
G
G的作用。因此本文:
F G △ G F_{G\bigtriangleup G} FG△G略小于 ( F G ) △ ( F G ) (FG)\bigtriangleup (FG) (FG)△(FG),上确界中两个hypothesis( f g fg fg, f g ′ fg' fg′)共享相同的预测器 f f f。
目标泛化约束(bound)够小,若满足:
- 源域风险小
- 隐空间分歧(latent divergence)小,因为两域被对齐 and/or F F F被限制( F F F is restricted)——为什么限制 F F F可以?
- 限制 G G G的复杂度避免对齐的过拟合
- good source and target risk is in general achievable with F F F and G G G and the encoder is good for the source domain.——不知从何翻译?
该约束自然解释了后续实验中观察到的以下几条之间的权衡情况( F F F:预测器——分类器, G G G:嵌入——特征生成器/特征提取器 ?,将样本映射到隐空间):
- 隐空间分歧(latent divergence)(随 F F F复杂增加,随 G G G复杂降低);
- 嵌入复杂度(随 F F F和 G G G复杂增加);——嵌入集不就是 G G G吗?
- 最佳类内联合风险(随 F F F和 G G G复杂降低)。
表现力过强的编码器( g g g)会受到较大的嵌入复杂度惩罚,而较小(复杂度还是表现力弱?)的编码器则无法使latent divergence最小化。(Overly expressive encoders suffer from a larger embedding complexity penalty, while smaller encoders fail to minimize the latent divergence.)
5.2 Experiments
为了分析嵌入复杂度的影响,本文对原有的两层CNN编码器进行增强, M → M − M M\rightarrow M-M M→M−M增加1~6层CNN, S → M S\rightarrow M S→M增加1~24层,其他设置不变。Fig 5a显示了结果。同样,目标误差最初减少,随着编码器变得更加复杂,目标误差增加。值得注意的是,与最佳情况相比,当编码器增加更多的层数时, M → M − M M \rightarrow M-M M→M−M的目标误差增加了19.8%, S → M S\rightarrow M S→M的目标误差增加了8.8%。本文在固定编码器和预测器深度的同时,也考虑了隐藏层的宽度作为复杂度的衡量标准。结果如Fig 5b所示。与增加编码器深度(层数/复杂度)相比,目标误差的减少并不明显。这表明在学习DIR时,深度比宽度起着更重要的作用。在附录中,本文还研究了归纳偏差的重要性,以及对于学习DIR的影响。
6. Division for Multilayer Neural Networks
将Theorem 6应用到多层网络中,将层数视为复杂性的衡量标准,假设H是一类固定宽度的N层前馈神经网络。 h ∈ H h\in H h∈H 对 i ∈ 1 , 2 , . . . , N − 1 i \in {1,2,...,N-1} i∈1,2,...,N−1可以分解为 h = f i g i ∈ F i G i = H h = f_ig_i \in F_iG_i = H h=figi∈FiGi=H,其中嵌入 g i g_i gi由第1层到第 i i i 层组成,预测器 f i f_i fi由第 i + 1 i+1 i+1层到第 N − 1 N-1 N−1层组成。
则Theorem 6可以重写为:
最小化不同层中的域不变损失会导致拟合度和复杂度惩罚之间的不同权衡。这反映在以下与不同层划分有关的不等式中。
Proposition 7指出,更深的嵌入 g g g可以更好地对齐,并同时降低 F F F的深度(power)(越复杂的 g g g能够降低 F F F深度变化(变浅?)时的影响?);两者都减少了latent divergence。同时,它也会产生较大的 F G △ G F_{G\bigtriangleup G} FG△G散度。这是在固定组合假设类 H H H内的权衡 (?)。
这说明,可能存在一个最优的划分,使目标风险的约束最小化。在实践中,这就转化为一个问题:我们应该在哪个中间层优化域不变的损失?
6.1 Experiments
接下来,本文研究总层数固定时的嵌入复杂度权衡。sentiment classification 固定8层、 M → M − M M\rightarrow M-M M→M−M 固定7层、 S → M S\rightarrow M S→M 固定26层
综上所述,存在一个目标误差最小的最优划分,表明对于固定的 H H H(固定网络总深度),并不是所有的划分都对等。
7. Estimating Target Risk
像第3节和第5节中的上界对于理论上和效果上是有用的,但很难明确计算。在这里,本文回到第4节的思路,通过使用选定的检查模型集P作为代理来估计给定模型的目标风险。给定Lemma 3中的约束,本文使用
sup
h
′
∈
P
R
T
(
h
,
h
′
)
\sup_{h'\in P}R_T(h,h')
suph′∈PRT(h,h′) 作为目标风险的估计。如果
inf
h
′
∈
P
R
T
(
h
′
)
\inf_{h'\in P}R_T(h')
infh′∈PRT(h′)很小,即如果P中存在一个好的目标预测模型,本文方法就能很好地工作。
本文将检查模型集P定义为所有实现低DIR目标值的领域不变分类器,即它们实现了低源风险,并能很好地对齐源和目标分布:
P
F
G
ϵ
=
{
h
=
f
g
∈
F
G
∣
R
S
(
h
)
+
α
d
(
p
S
g
(
Z
)
,
p
T
g
(
Z
)
)
⩽
ϵ
}
P^\epsilon_{FG}=\{h=fg\in FG|R_S(h)+\alpha d(p^ g_S(Z),p^ g_T(Z)) \leqslant \epsilon \}
PFGϵ={h=fg∈FG∣RS(h)+αd(pSg(Z),pTg(Z))⩽ϵ}
因此,本文隐含地假设存在一些DIR模型,实现低目标风险。
7.1. Connection to Embedding Complexity
How good is the resulting proxy risk as an estimate of the target risk of h? Lemma 4指出检查模型的目标风险给出了估计误差的上限:
∣
sup
h
′
∈
p
F
G
ϵ
R
T
(
h
,
h
′
)
−
R
T
(
h
)
∣
⩽
sup
h
′
∈
p
F
G
ϵ
R
T
(
h
′
)
|\sup_{h'\in p^\epsilon_{FG}}R_T(h,h')-R_T(h)|\leqslant \sup_{h'\in p^\epsilon_{FG}} R_T(h')
∣h′∈pFGϵsupRT(h,h′)−RT(h)∣⩽h′∈pFGϵsupRT(h′)
集合 p F G ϵ p^\epsilon_{FG} pFGϵ包括所有实现低DIR目标值的DIR模型。如果 sup R T ( h ′ ) \sup_{R_T(h')} supRT(h′)很大,那么DIR目标就不足以确定一个好的目标分类器,就不可能对目标进行泛化。Section 5的结果表明,DIR检查模型的嵌入复杂度对目标泛化起着重要作用。为了使估计误差最小化,应该选择一类具有合适嵌入复杂度的DIR模型,即具有最优划分的模型。本文在Section 8.1节中说明,也可以利用本文思想让DIR模型进行自我调整,找到最优的嵌入复杂度。
7.2. Computing the Target Risk Estimator
为了近似代理风险(proxy risk)
sup
R
T
(
h
′
)
\sup_{R_T(h')}
supRT(h′),本文最大化了在模型约束下的disagreement:
max
f
′
,
g
′
∈
F
G
R
T
(
h
,
f
′
g
′
)
,
s
.
t
.
R
S
(
f
′
g
′
)
+
α
d
(
p
S
g
′
(
Z
)
,
p
T
g
′
(
Z
)
)
⩽
ϵ
\max_{f',g'\in FG}R_T(h,f'g'), s.t. R_S(f'g')+\alpha d(p^ {g'}_S(Z),p^ {g'}_T(Z)) \leqslant \epsilon
f′,g′∈FGmaxRT(h,f′g′),s.t.RS(f′g′)+αd(pSg′(Z),pTg′(Z))⩽ϵ
使用拉格朗日松弛:
max
f
′
,
g
′
∈
F
G
R
T
(
h
,
f
′
g
′
)
−
λ
(
R
S
(
f
′
g
′
)
+
α
d
(
p
S
g
′
(
Z
)
,
p
T
g
′
(
Z
)
)
)
\max_{f',g'\in FG}R_T(h,f'g')-\lambda (R_S(f'g')+\alpha d(p^ {g'}_S(Z),p^ {g'}_T(Z)))
f′,g′∈FGmaxRT(h,f′g′)−λ(RS(f′g′)+αd(pSg′(Z),pTg′(Z)))
λ
>
0
\lambda >0
λ>0。本文使用
R
T
R_T
RT ,
R
S
R_S
RS的经验估计,并通过标准的随机梯度下降最小化经验目标。
8. Experiments
评估两个任务:DIR模型的模型选择和估计任何给定模型的目标风险。
8.1. Model Selection for DIR
Estimating Optimal Network Division 首先估计DIR模型的最佳层分,将其分为编码器和预测器,使目标风险最小化。由Lemma 4可知者可以得到一个良好的检查模型集。为了估计DIR模型的目标风险,遵循与Section 4相同的策略,但对于一类模型(a class of models)来说:可以用二阶代理分类器对division
i
i
i的最差目标误差进行约束。
本文选择能使类内代理风险最小化的division。——这里的division指
h
′
h'
h′的分割?
计算中,本文采用Section 7.2的方法来逼近最差的类内代理风险。Fig 7显示了DIR模型用标签(蓝线:真实的目标误差)计算,不同division的真实目标检验误差,以及与本文类内代理风险估计(in-class proxy risk estimates)的比较。不同的线对应不同的二阶检验模型。结果表明:(1)本文方法可以在没有监督的情况下准确估计出最佳的层级划分;(2)这种自调整策略对二阶检查模型的选择是稳健的。
Estimating Stopping Criteria Fig 8显示了DANNs训练过程中的目标误差、源误差、代理误差。检查模型的架构与候选模型(candidate model)相同,预测结果用最优division来近似。在这两次实验中,代理风险与目标误差都很一致。这说明 proxy risk 能够作为提前停止的标准。
8.2. Estimating Performance Drop of Supervised Learning under Domain Shift
估计只在源域上训练的非适应性模型的目标风险——标准监督学习。本文于 H △ H − d i v e r g e n c e H\bigtriangleup H-divergence H△H−divergence 和 置信度得分( R T = R S + R_T=R_S+ RT=RS+源域平均置信度和目标域平均置信度的差)进行比较。
为了估计新分布上的风险,本文考虑用不同划分的域不变分类器作为检查模型。在 "Standard "和 "Complex"检查模型中,编码器分别有4/6层和6/12层,用于digits/objects分类。检查模型和监督预测模型共享相同的架构。
Fig 9展示了本文方法的预测结果超过了基线方法。在复杂便发起中,本文方法有轻微过估计目标风险,这也说明了本文的理论:检查模型的嵌入复杂度控制得当,可以得到更好的预测结果。
H
△
H
−
d
i
v
e
r
g
e
n
c
e
H\bigtriangleup H-divergence
H△H−divergence趋向于过估计目标风险,说明其过于pessimistic不适合经验估计。(##Estimating performance drop.(performance drop:嵌入(预测器)在源域上训练,在目标域上的下降?)第一行。数字分类,第二行:对象分类。虚线代表完美预测(目标风险=预测风险)。点的形状和颜色分别表示不同的源域和目标域。虚线下方(上方)的点表示高估(低估)。实线为回归线。)
相比之下,置信度评分法在很大程度上低估了目标风险。Table 1显示了定量结果(SL-Digit和SL-Object)(SL-监督学习):领域对的平均绝对误差和目标风险与预测之间的皮尔逊相关系数。本文方法在这两个指标上都大大优于基线。
8.3. Estimating Adaptability between Domains
估计自适应、域不变分类器(DANNs)的目标风险。本节设置H=P^e_{FG}来收紧H\delta H-divergence。如Table 1(DIR-Digit和DIR-Object)所示,与估计非自适应模型的目标风险相比,本文的所有方法的性能都有所提高。
8.4. Error Detection
除了估计新分布上的风险,了解一个预测在特定的新测试点是否可靠也很重要。
为了近似 h h h的 proxy 误差,本文训练了一个 check 模型 h ′ h' h′最大化与 h h h的 disagreement。本文使用 h ′ h' h′来预测误分类:若 h ′ ( x ∗ ) ≠ h ( x ∗ ) h'(x^*)\neq h(x^*) h′(x∗)=h(x∗) 则不应信任 h ( x ∗ ) h(x^*) h(x∗)认为其预测错误。
为了定量评价这种方法,我们将错误预测表述为二元分类,并计算监督模型和自适应模型在目标域上的错误检测F1得分。
9. Conclusion
(1)本文利用领域不变的分类器来经验性地估计目标风险,即任何给定的监督模型或领域适应模型在新的、偏移的、未标记的数据集上的性能。这种方法适用于估计单个分类器在数据集上的风险,预测点向误差,以及估计一组给定分类器的风险,例如,用于模型选择。
(2)为了获得良好的估计器,我们从理论和实证上分析了嵌入复杂度对域不变表示中目标风险的影响。我们观察到,嵌入复杂度是对目标分布适应性的重要因素,远高于预测器部分的复杂度,and more than its roe for non-adaptive, supervised learning。(?)
Appendix
…