本文介绍一篇ICLR 2022的论文《TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS》,题目直译为《追踪已部署模型的风险并检测有害的分布变化》。顾名思义,该研究认为数据流的分布是不断变化的,这些变化可能会导致已经部署的模型不再适应,使得模型准度(or 性能)下降。
此研究与先前工作最大的不同点在于:
- 该研究将 Data Drift 归类为无害(benign)变化和有害(harmful)变化两类,对于无害变化可以不修改/替换模型;
- 先前研究一般假设 Data Drift 只发生在 Input Covariate 或 Label 其中一个上,限制了应用场景;
- 其可以持续的监控 Data Drift,并保证较低的 False Positive Rate;
试了以下New Bing对于这篇论文的总结:
一些定义
Notations | 解释 |
---|---|
X , Y {X}, {Y} X,Y | 输入与输出;Covariate and Label Spaces |
f : X → Y f: {X} \rightarrow {Y} f:X→Y | 预测模型;Predictor |
l ( ⋅ , ⋅ ) l(\cdot,\cdot) l(⋅,⋅) | 损失函数;Loss Function |
R ( f ) : = E [ l ( f ( X ) , Y ) ] R(f):= \mathbb{E}[l(f({X}),{Y})] R(f):=E[l(f(X),Y)] | 期望损失; corresponding expected loss (a.k.a., risk of f f f) |
此文仅仅假设了损失函数是有边界的,没有其他任何附加的假设条件。
方法
此文首先将数据变化预测问题定义成了顺序假设检验,随后提出了顺序估计算法。
顺序假设检验 SEQUENTIAL HYPOTHESIS TEST
如果模型的风险在当前数据上(Target)比在之前数据上(Source)大出一定程度,该程度不可接受,则判定为有害变化,否则为无害变化。
-
当前/未来数据可能满足
- (a). 独立同分布(i.i.d.):分布突然变化,但是仍然i.i.d.;很简单且不实际,这里不讨论
- (b). 独立(independence):分布也可以缓慢变化;以下仅讨论 (b) 情况。
假设 Hypotheses 可以形式化地表示为:
H 0 : R T ( t ) ( f ) ≤ R S ( f ) + ϵ tol , ∀ t ≥ 1 H_0: R_T^{(t)}(f) \leq R_S(f) + \epsilon_\text{tol}, \forall t\geq 1 H0:RT(t)(f)≤RS(f)+ϵtol,∀t≥1 vs. H 1 : ∃ t ∗ : R T ( t ∗ ) ( f ) > R S ( f ) + ϵ tol H_1: \exists t^*: R_T^{(t^*)}(f) > R_S(f) + \epsilon_\text{tol} H1:∃t∗:RT(t∗)(f)>RS(f)+ϵtol
其中, ϵ tol \epsilon_\text{tol} ϵtol 为可接受的忍耐程度; R T ( t )