检测数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS_estimating means of bounded random variables by be-CSDN博客

本文链接：https://blog.csdn.net/qq_33013987/article/details/129609945

本文探讨了ICLR 2022论文，关于监控已部署模型的风险和识别有害数据分布变化。研究区分了无害和有害数据漂移，并提出顺序假设检验和顺序估计算法来持续监测数据漂移，保证较低的误报率。方法包括估计模型在源和目标数据上的风险，使用Confidence Bounds和Time-uniform Lower Confidence Bound。这允许设定绝对阈值来触发警告，如准确率低于80%。

摘要由CSDN通过智能技术生成

论文首页
本文介绍一篇ICLR 2022的论文《TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS》，题目直译为《追踪已部署模型的风险并检测有害的分布变化》。顾名思义，该研究认为数据流的分布是不断变化的，这些变化可能会导致已经部署的模型不再适应，使得模型准度（or 性能）下降。

此研究与先前工作最大的不同点在于：

该研究将 Data Drift 归类为无害（benign）变化和有害（harmful）变化两类，对于无害变化可以不修改/替换模型；
先前研究一般假设 Data Drift 只发生在 Input Covariate 或 Label 其中一个上，限制了应用场景；
其可以持续的监控 Data Drift，并保证较低的 False Positive Rate；

试了以下New Bing对于这篇论文的总结：

一些定义

Notations	解释
${X}, {Y}$	输入与输出；Covariate and Label Spaces
$\rightarrow {Y}$	预测模型；Predictor
$l(\cdot,\cdot)$	损失函数；Loss Function
$\mathbb{E}[l(f({X}),{Y})]$	期望损失； corresponding expected loss (a.k.a., risk of $f$ )

此文仅仅假设了损失函数是有边界的，没有其他任何附加的假设条件。

方法

此文首先将数据变化预测问题定义成了顺序假设检验，随后提出了顺序估计算法。

顺序假设检验 SEQUENTIAL HYPOTHESIS TEST

如果模型的风险在当前数据上（Target）比在之前数据上（Source）大出一定程度，该程度不可接受，则判定为有害变化，否则为无害变化。

当前/未来数据可能满足

(a). 独立同分布（i.i.d.）：分布突然变化，但是仍然i.i.d.；很简单且不实际，这里不讨论

(b). 独立（independence）：分布也可以缓慢变化；以下仅讨论 (b) 情况。

假设 Hypotheses 可以形式化地表示为：
$H_0: R_T^{(t)}(f) \leq R_S(f) + \epsilon_\text{tol}, \forall t\geq 1$ vs. $H_1: \exists t^*: R_T^{(t^*)}(f) > R_S(f) + \epsilon_\text{tol}$
其中， $\epsilon_\text{tol}$ 为可接受的忍耐程度；