MLDemon: Deployment Monitoring for Machine Learning Systems

解读MLOps 论文之MLDemon: Deployment Monitoring for Machine Learning Systems


发表时间:2022.2.24
作者:斯坦福和哈佛的大拿
Antonio A. Ginart1、Martin Jinye Zhang2、James Zou1
1Stanford University 2Harvard University

摘要

ML系统的部署后监控对于确保可靠性至关重要,特别是因为新用户输入可能与训练分布不同。在这里我们提出了一种新的方法,MLDemon,用于ML部署监控。MLDemon集成了未标记数据和少量按需的标签,以实时估计给定数据流上ML模型的当前性能。
根据预算限制,MLDemon决定何时购买额外的、可能成本高昂的专家监督标签,以验证模型。在具有不同分布漂移和模型的时序数据集上,MLDemon优于现有方法。此外,我们提供了理论分析,以表明MLDemon对于广泛的分布漂移是minimax最小最大速率最优的。

背景介绍

当真实标签在部署时不易获得时(如果标签昂贵,通常情况下),最常见的解决方案是使用无监督、基于特征的异常检测器(Lu等人,2018;Rabanser等人,2018)。在某些情况下,这些探测器工作良好。然而,它们也可能灾难性地失败,因为模型精度可能会急剧下降,而不可能仅检测特征。这可以通过以下两种方式之一实现。
首先,对于高维数据,特征检测器可能只是缺少足够数量的样本来检测所有协变量漂移。
其次,在给定特征x的情况下,漂移可能仅发生在标签y的条件分布中(如果没有监督,则无法检测到)。Yu等人(2018)提出的一种潜在方法应用统计测试来估计特征分布的变化,然后仅当检测到这种变化时才请求专家标签。虽然很自然地假设特征的分布漂移应指示模型精度的漂移,但实际上,特征漂移既不是必要的,也不足以预测精度漂移。事实上,我们发现无监督异常检测器通常很脆弱。因此,任何只从基于特征的异常触发监控的监控策略都可能以无声和灾难性的方式失败。部署监控是一个广泛的话题。在这项工作中,我们关注一个特定的流式设置,其中自动部署监控策略可以在部署期间向专家查询标签。

该策略的目标是在整个部署过程中估计模型的实时准确性,同时查询最少数量的专家标签。当然,这两个目标存在争议。我们试图设计一项政策,在关键时刻有效地优先考虑专家的关注。我们严格关注监控,不考虑自动更新或调试已部署模型的策略。

贡献:
(1) 我们为ML部署监控问题提供了一个新的数学公式,该公式易于处理,并捕获了监控成本和风险之间的关键权衡。
(2) 我们从理论上证明了我们提出的自适应监控策略MLDemon在对数因子下是最小最大速率最优的,并且优于现有技术。
(3) 我们的实验表明,基于特征的异常检测器相对于真实分布偏移可能很脆弱,MLDemon同时提供了对错误检测器的鲁棒性,同时获得了信息检测器的好处。

问题定义

目标是设计一个政策方针,使得摊余损失的预期降到最低。
1.分布漂移假设
我们对分布Pt随时间变化的设置感兴趣。如果不对Pt如何随时间变化进行任何假设,就不可能保证任何标记策略都能实现合理的性能。幸运的是,随着时间的推移,许多真实世界的数据漂移往往更加缓慢。许多ML系统每小时可以处理数百或数千个用户查询,而许多真实世界的数据漂移往往会在几天或几周内发生。基于此,我们考虑了总变量3随时间变化的Lipschitz连续分布漂移(O’Searcoid,2006):P={{Pt}Tt=1:d(Pt,Pt−1)≤∆,∀t} 。这个∆-Lipschitz约束捕捉到分布转移必须以随时间控制的方式发生,这是许多情况下的自然假设。数量级∆ 捕获监控问题的固有困难;小∆ 表示由于流漂移缓慢,因此部署更易于监控。对于我们的理论,我们侧重于渐近后悔,即∆, 但在部署时间T内摊销。而我们的理论分析依赖于∆-Lipschitz假设下,我们的算法不需要在经验上运行良好。

2.基于特征的异常检测
我们假设我们的策略可以访问基于特征的异常检测器,其从在线特征流计算异常信号。我们让Gt表示时间t处的异常检测信号。在实践中,大多数异常检测器将用于降维的特定于域的总计统计(或表示)与用于测试总计统计中漂移的统计度量相结合。如下是检测函数g:
在这里插入图片描述在这里插入图片描述
例如,如果d(P,Q)=||EP−EQ||,则异常信号Gt在检测窗口上等价于(直到单调变换)Z测试的p值,如果d是KS距离,则Gt等价于KS测试的p-值。常见的总计表示法包括深层神经模型的嵌入层,甚至只是模型置信度。

3.线性检测条件
MLDemon的核心思想是将来自专家标签的信息与基于特征流的检测信号相结合。实际上,任何完全忽略检测器的策略显然是在浪费这些辅助信息。另一方面,任何盲目信任检测器的策略对建模假设违反都不可靠。MLDemon在这两个极端位置之间取得了平衡。对于如何实现这一平衡,没有统一的答案,因为这显然取决于探测器的特殊性质、漂移和问题实例。然而,合理的假设是,对于设计良好的探测器(即e和d的适当选择),对于至少合理的一部分实例,异常信号应与精度漂移大致相关:|µt−µt0|≈ wd(E(Xt),E(Xt0))。激发的直觉是,异常信号通常与(绝对)精度漂移相关。如果这是真的,人们应该期望能够拟合线性模型,以部分捕获关系,即使真实关系是不完全是线性的。我们不要求线性模型总是成立;如果有足够的证据证明这一点,MLDemon学会了放弃这一假设。我们更正式地将这种直觉编码为线性检测条件:
在这里插入图片描述
该条件用于所提出算法的理论见解,而不是严格要求的假设。该条件概率成立是关于策略将遇到的问题实例的假设分布(特别是关于{Pt}和{Gt}之间的关系)的陈述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狐狸的帽子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值