【MLOps】第 8 章 : 模型治理

 🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

​​

 🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

如果你对这个系列感兴趣的话,可以关注订阅哟👋

文章目录

谁决定组织需要什么样的治理?

将治理与风险水平相匹配

推动 MLOps 治理的现行法规

美国药品监管:GxP

金融模型风险管理监管

GDPR 和 CCPA 数据隐私条例

人工智能特定法规的新浪潮

负责任的人工智能的出现

负责任的人工智能的关键要素

要素 1:数据

要素 2:偏差

要素 3:包容性

要素 4:大规模模型管理

要素 5:治理

MLOps 治理模板

第 1 步:了解分析用例并对其进行分类

第 2 步:确立道德立场

第 3 步:确立责任

第 4 步:确定治理策略

第 5 步:将策略集成到 MLOps 流程中

第6步:选择集中治理管理工具

第 7 步:参与和教育

第 8 步:监控和优化

总结


第3章对企业实施的控制中治理作为一个整体的想法。这些目标旨在确保企业履行对所有利益相关者的责任,从股东和员工到公众和国家政府。这些责任包括财务、法律和道德,并且都是以对公平的渴望为基础的。

本章将更深入地探讨这些主题,从它们为何重要转向组织如何将它们纳入其 MLOps 战略。

谁决定组织需要什么样的治理?

国家法规是维护公平的社会框架的重要组成部分。但这些需要相当长的时间才能达成一致并实施;它们总是反映出对公平及其挑战的略微历史理解。就像机器学习模型一样,过去不能总是预测未来不断发展的问题。

大多数企业希望从治理中获得的是保护股东投资,并帮助确保现在和未来的适当投资回报率。这意味着企业必须有效、盈利且可持续地运作。股东需要清楚地看到客户、员工和监管机构都满意,并且他们希望得到保证,确保采取适当的措施来发现和管理未来可能发生的任何困难。

当然,这些都不是新闻,也不是 MLOps 特有的。ML 的不同之处在于它是一种新的且通常不透明的技术,会带来许多风险,但它正在迅速嵌入影响我们生活方方面面的决策系统中。机器学习系统发明了自己的系统统计驱动基于被认为代表现实世界的大量数据的决策过程,通常极难理解。不难看出可能会出现什么问题!

也许是最对 ML 治理方向的惊人影响是公众舆论,其发展速度比正式监管快得多。它不遵循正式的程序或礼仪。它不必基于事实或理由。舆论决定了人们购买什么产品,他们把钱投资在哪里,以及政府制定什么规章制度。舆论决定什么是公平的,什么是不公平的。

例如,开发转基因作物的农业生物技术公司在20世纪90年代痛苦地感受到了舆论的力量。尽管关于是否存在健康风险的争论十分激烈,但欧洲的公众舆论却反对转基因,许多欧洲国家禁止使用这些作物。机器学习与机器学习的相似之处很明显:机器学习为所有人带来好处,但如果要公众信任它,就需要管理风险。没有公众的信任,效益就无法充分实现。

需要向公众保证机器学习是公平的。什么是“公平”并没有在规则书中定义,也不是固定的;它会根据事件而波动,并且在世界各地并不总是相同。目前,人们对机器学习的看法尚不明确。大多数人更喜欢获得针对性强的广告,他们喜欢他们的汽车能够读取限速标志,并且改进欺诈检测最终会为他们省钱。

但也有一些广为人知的丑闻动摇了公众对这项技术的接受程度。Facebook-Cambridge Analytica 事件震惊了世界,两家公司利用 ML 的力量操纵社交媒体上的舆论。这看起来像是带有明显恶意意图的机器学习。同样令人担忧的是完全无意伤害的情况,事实证明,机器学习黑匣子判断在种族或性别等标准上存在不可接受的非法偏见,例如在刑事评估系统和招聘工具中。

如果企业和政府想要从机器学习中获益,他们就必须维护公众对其的信任,并积极应对风险。对于企业来说,这意味着对其 MLOps 流程进行强有力的治理。他们必须评估风险,确定自己的一套公平价值观,然后实施必要的流程来管理风险。其中大部分只是关于良好的内务管理,并额外关注减轻 ML 的固有风险,解决数据来源、透明度、偏见、性能管理和可重复性等主题。

将治理与风险水平相匹配

治理天下没有免费的午餐;它需要努力、纪律和时间。

从业务利益相关者的角度来看,治理可能会减慢新模型的交付速度,这可能会花费企业资金。对于数据科学家来说,官僚主义似乎削弱了他们完成工作的能力。相比之下,负责管理风险的人员和管理部署的 DevOps 团队会认为,全面严格的治理应该是强制性的。

负责 MLOps 的人员必须管理不同用户配置文件之间的内在紧张关系,在高效完成工作和防范所有可能的威胁之间取得平衡。通过评估每个项目的特定风险并将治理流程与该风险级别相匹配,可以找到这种平衡。有几个维度需要考虑评估风险时,包括:

  • 模特的观众

  • 模型的生命周期及其结果

  • 结果的影响

该评估不仅应确定应用的治理措施,还应推动完整的 MLOps 开发和部署工具链。

例如,自助服务分析 (SSA) 项目(一个仅供少量内部受众使用且通常由业务分析师构建的项目)需要相对轻量级的治理。相反,部署到面向公众的网站做出影响人们生活或公司财务的决策的模型需要一个非常彻底的过程。该过程将考虑业务选择的 KPI 类型、用于所需可解释性级别的模型构建算法类型、使用的编码工具、文档和可重复性水平、自动化测试水平、硬件平台以及实施的监控类型。

但商业风险并不总是那么明确。做出具有长期影响的决策的 SSA 项目也可能具有高风险,并且可以证明采取更强有力的治理措施是合理的。这就是为什么团队需要全面深思熟虑、定期审查 MLOps 风险评估策略(参见图8-1了解项目关键性和可操作方法的详细信息)。

图 8-1 根据项目的关键性选择正确类型的操作化模型和 MLOps 功能

推动 MLOps 治理的现行法规

周围几乎没有监管当今世界专门针对机器学习和人工智能。然而,许多现有法规确实对机器学习治理产生重大影响。这些有两种形式:

  • 特定行业的监管。这在金融和制药行业尤其重要。

  • 广谱监管,特别是解决数据隐私问题。

以下各节概述了一些最相关的法规。它们与 MLOps 治理挑战的相关性是惊人的,这些法规很好地表明了整个行业需要采取哪些治理措施来建立和维持对 ML 的信任。

即使对于那些在没有具体法规的行业工作的人来说,以下部分也可以简要介绍世界范围内的组织(无论哪个行业)未来在机器学习的控制特异性水平方面可能面临的问题。

美国药品监管:GxP

GxP是一个收藏质量的制定的指南(例如良好临床实践或 GCP 指南)和法规由美国食品和药物管理局 (FDA) 制定,旨在确保生物和医药产品的安全。

GxP 指南重点关注:

  • 可追溯性,或重新创建药物或医疗设备开发历史的能力。

  • 问责制,意味着谁在何时为药物开发做出了贡献。

  • 数据完整性 (DI)或可靠性开发和测试中使用的数据。这是基于 ALCOA 原则:可追溯、易读、同期、原创和准确,考虑因素包括识别风险和缓解策略。

金融模型风险管理监管

在金融领域,模型风险是指当用于交易资产决策的模型被证明不准确时产生损失的风险。这些模型,例如 Black-Scholes 模型,早在 ML 出现之前就已经存在。

模型风险管理 (MRM) 监管是由金融崩溃等非同寻常事件的影响以及如果发生严重损失对公众和更广泛的经济造成的伤害的经验所推动的。自 2007-2008 年金融危机以来,引入了大量额外法规来强制推行良好的 MRM 实践(见图8-2)。

例如,英国审慎监管局 (PRA) 的规定定义了良好 MRM 的四项原则

型号定义

定义模型并将此类模型记录在清单中。

风险治理

建立模型风险治理框架、政策、程序和控制。

生命周期管理

创建稳健的模型开发、实施和使用流程。

有效的挑战

进行适当的模型验证和独立审查。

图 8-2 模型风险管理 (MRM) 监管的历史

GDPR 和 CCPA 数据隐私条例

欧盟通用数据保护条例 (GDPR) 是首次实施2018年,设定 收集和处理居住在欧盟的个人的个人信息的指南。然而,它是在考虑到互联网时代的情况下开发的,因此它实际上适用于任何网站的欧盟访问者,无论该网站位于何处。由于很少有网站愿意排除欧盟访问者,世界各地的网站都被迫满足这些要求,使得 GDPR 成为事实上的数据保护标准。这些法规旨在让人们能够控制 IT 系统收集的个人数据,包括以下权利:

  • 了解收集或处理的数据

  • 访问收集的数据并了解其处理

  • 纠正不准确的数据

  • 被遗忘(即删除数据)

  • 限制个人数据的处理

  • 获取收集的数据并在其他地方重复使用

  • 反对自动化决策

《加州消费者隐私法案》(CCPA) 在保护对象和内容方面与 GDPR 非常相似,尽管其范围、领土范围和经济处罚都更加有限。

人工智能特定法规的新浪潮

在世界范围内,一股新的浪潮专门针对人工智能应用(以及所有机器学习应用)的法规和指南正在出现。欧盟正在带头尝试建立可信赖的人工智能框架。

欧盟在人工智能白皮书中强调了人工智能对各行各业的潜在好处。同样,它强调了围绕人工智能滥用的丑闻以及对人工智能力量潜在进步的危险的警告并没有被忽视。欧盟认为,基于其基本价值观的监管框架“将使其成为数据经济及其应用创新的全球领导者”。

欧盟确定了 AI 应用程序应遵守的七个关键要求才能被认为是值得信赖的:

  • 人力机构和监督

  • 技术稳健性和安全性

  • 隐私和数据治理

  • 透明度

  • 多样性、非歧视和公平

  • 社会和环境福祉

  • 问责制

欧盟的做法并非一刀切:它将主要影响特定的高风险部门,包括医疗保健、交通、能源和部分公共部门。预计这些规定对其他部门是可选的。

与 GDPR 一样,欧盟的做法可能会产生全球影响。许多大型组织也可能会决定选择考虑公众信任使用人工智能对其业务的重要性。即使对于那些不选择加入的人,该框架也可能会建立一种思考人工智能治理的方式,并将影响他们的方法。

表 8-1 概述了全球人工智能治理计划的一些状况。所有这些都遵循着明显相似的路线,即使规范性水平反映了它们传统上截然不同的监管方法。

表 8-1 全球人工智能治理举措的现状
地区和组织阶段重点接下来
经合组织指导
  • 42 个签署者
  • 负责任地管理可信赖人工智能的 5 条原则:包容性增长、以人为本和公平、透明和可解释性、稳健性和问责制
  • 对国家政策的建议
 
欧洲联盟指导、沟通、指示和监管
  • 对高风险活动具有约束力(X 部门影响),可选择为其他活动贴上标签
  • 具体来说以模型的公平性、稳健性和可审计性为目标,混合政策和控制,整合对环境和社会影响的强烈道德考虑
  • 指令将于 2020 年底/2021 年初发布
  • 转化为国家政权
新加坡指导
  • 积极的、基于非批准的方法,重点关注在组织层面实施人工智能治理的实际步骤
  • 最佳实践中心,支持经济论坛层面的人工智能治理工作
  • 2020 年底/2021 年初实施监管
我们指导、沟通和监管
  • 发布联邦指导方针,为行业特定指导方针或法规奠定基础
  • 注重公众信任和公平;没有更广泛的道德考虑
 
英国指导仅高级指南;不具约束力且覆盖面广 
澳大利亚指导发布了详细的指导方针,将道德与对最终消费者保护的高度关注结合起来 

负责任的人工智能的出现

作为采用数据科学、机器学习和人工智能有在全球范围内加速发展,人工智能思想家之间已经形成了松散的共识。这种共识最常见的旗帜是负责任的人工智能:开发负责任、可持续和可治理的机器学习系统的想法。从本质上讲,人工智能系统应该做它们应该做的事情,随着时间的推移保持可靠,并且受到良好的控制和审计。 

负责任的 AI 或用于构建它的术语没有严格的定义,但对于总体考虑因素以及交付它所需的主要因素达成了一致(见表 8-2 。尽管缺乏任何单一机构推动这一运动,但负责任的人工智能已经对集体思维产生了重大影响,尤其是对欧盟值得信赖的人工智能监管机构。

表 8-2 Responsible AI 的组成部分,MLOps 中日益重要的一部分
意向性问责制
一定有:
  • 确保模型的设计和行为符合其目的
  • 确保用于 AI 项目的数据来自合规和公正的来源,以及 AI 项目的协作方法,确保对潜在模型偏差进行多重检查和平衡
  • 意向性还包括可解释性,即人工智能系统的结果应该可以由人类解释(理想情况下不仅仅是创建系统的人类)
一定有:
  • 集中控制、管理和审计企业 AI 工作的能力(无影子 IT!)
  • 全面了解哪些团队正在使用哪些数据、如何使用以及在哪些模型中使用
  • 相信数据是可靠的,并且是按照法规收集的,并且集中了解哪些模型用于哪些业务流程。这与可追溯性密切相关——如果出现问题,是否容易找到管道中发生问题的位置?
以人为本的方法 
为人们提供工具和培训了解并在两个组件上执行   

负责任的人工智能的关键要素

负责任的人工智能就是责任数据从业者,而不是人工智能本身负责:这是一个非常重要的区别。Dataiku 的 Kurt Muemel 表示,另一个重要的区别是,“这不一定是故意伤害,而是意外伤害。”

本节介绍了负责任的人工智能思维中的五个关键要素——数据、偏见、包容性、大规模模型管理和治理——以及每个要素的 MLOps 考虑因素。

要素 1:数据

对数据的依赖是 ML 与传统软件开发之间的根本区别。所用数据的质量将对模型的准确性产生最大影响。一些现实世界的考虑如下:

  • 出处为王。了解数据的收集方式及其到达使用点的过程。

  • 从桌面上获取数据。数据必须可管理、可安全且可追踪。必须严格管理个人数据。

  • 随着时间的推移,数据的质量:一致性、完整性和所有权。

  • 偏进,偏出。有偏差的输入数据很容易在无意中发生。

要素 2:偏差

机器学习预测建模旨在构建一个系统来识别和利用现实世界中的趋势。在某些地方,由某些类型的人驾驶的某些类型的汽车对保险公司来说可能比其他地方更昂贵。但是匹配模式总是被认为是道德的吗?这种模式匹配什么时候是相称的,什么时候是不公平的偏见?

确定什么是公平并不明确。即使使用流失模型向更有可能离开的客户提供回扣,也可能被认为对将为同一产品支付更多费用的休眠客户不公平。法规是开始寻找的地方,但正如已经讨论过的,意见不是普遍的,也不是固定的。即使清楚地了解要努力实现的公平约束,实现这些约束也并非易事。当对女性学校有偏见的招聘系统的开发者调整模型以忽略像“女性”这样的词时,他们发现即使是简历中的语言语气也反映了作者的性别,并对女性造成了不必要的偏见。解决这些偏差对要构建的 ML 模型具有深远的影响。

退一步来说,这些偏见问题并不新鲜。例如,雇佣歧视一直是个问题。新的是,由于 IT 革命,评估偏见的数据更容易获得。最重要的是,由于机器学习的决策自动化,可以改变行为而不必经过个人做出主观决定的过滤器。

最重要的是,偏差不仅仅是统计上的。偏差检查应集成到治理框架中,以便尽早发现问题,因为它们确实有可能破坏数据科学和机器学习项目。

也不全是坏消息:数据科学家可以解决许多潜在的统计偏差来源(即过去的世界) :

  • 偏差是否被编码到训练数据中?原材料有偏差吗?数据准备、抽样或拆分是否引入了偏差?

  • 问题的框架是否正确?

  • 我们是否为所有亚群设定了正确的目标?请注意,许多变量可能高度相关。

  • 反馈循环数据是否因诸如选择在 UI 中呈现的顺序等因素而存在偏差?

防止由偏见引起的问题是如此复杂,以至于当前的大部分重点是在偏见造成伤害之前检测它。ML 可解释性是当前偏差检测的支柱,通过一组分析模型的技术工具来理解 ML 模型,包括:

  • 预测理解:为什么模型会做出特定的预测?

  • 亚群分析:亚群之间是否存在偏差?

  • 依赖性理解:各个功能有何贡献?

解决偏见的一种非常不同但互补的方法是在开发过程中尽可能广泛地利用人类专业知识。这是负责任的人工智能包容性理念的一方面。

要素 3:包容性

人机交互 (HITL) 方法旨在将人类智能的最佳性能与机器智能的最佳性能相结合。机器擅长根据大量数据集做出明智决策,而人类更擅长利用较少信息做出决策。人类判断对于做出道德和伤害相关的判断特别有效。

这个概念可以应用于生产中使用模型的方式,但它对于模型的构建方式也同样重要。将 MLOps 循环中的人员责任形式化(例如通过签核流程)可能很简单,但非常有效。

包容性原则进一步推动了人类与人工智能协作的理念:将尽可能多样化的人类专业知识带入 ML 生命周期,从而降低出现严重盲点和遗漏的风险。构建机器学习的团队的包容性越小,风险就越大。

业务分析师、主题专家、数据科学家、数据工程师、风险经理和技术架构师的视角各不相同。与依赖任何单个用户配置文件相比,所有这些观点共同为管理模型开发和部署带来了更大的清晰度,并且使这些用户配置文件能够有效协作是在任何组织中降低风险和提高 MLOps 性能的关键因素。请参阅第2章 , 了解不同配置文件之间协作以获得更好 MLOps 性能的清晰示例。

充分的包容性甚至可以让消费者参与到这个过程中,也许是通过焦点小组测试。包容性的目标是将适当的人类专业知识带入流程,无论其来源如何。将机器学习留给数据科学家并不是管理风险的答案。

要素 4:大规模模型管理

当生产中有少数模型时,管理与 ML 相关的风险可以承受大部分手动操作。但随着部署量的增加,挑战也迅速增加。以下是大规模管理机器学习的一些关键注意事项:

  • 可扩展的模型生命周期需要在很大程度上实现自动化和简化。

  • 例如数据集子集中的错误将快速且广泛地传播。

  • 现有的软件工程技术可以大规模地协助机器学习。

  • 决定必须可解释、可审计和可追溯。

  • 可重复性是理解问题出在哪里、谁或什么负责以及谁应该确保错误得到纠正的关键。

  • 模型性能会随着时间的推移而降低:必须将监控、漂移管理、再培训和重构构建到流程中。

  • 技术正在迅速发展;需要一种整合新技术的方法。

要素 5:治理

负责任的人工智能将强有力的治理视为实现公平和可信的关键。该方法建立在传统的治理技术之上:

  • 在流程开始时确定意图

  • 正式让人类参与进来

  • 明确职责(图 8-3 )

  • 整合定义和构建流程的目标

  • 建立并传达流程和规则

  • 定义可衡量的指标并监控偏差

  • 在 MLOps 管道中构建与总体目标一致的多项检查

  • 通过教育赋予人们权力

  • 教导建筑商和决策者如何预防伤害

因此,治理既是 MLOps 计划的基础,也是粘合剂。然而,重要的是要认识到它超出了传统数据治理的边界。

图 8-3 代表谁在组织的不同级别负责 Responsible AI 流程的不同部分

MLOps 治理模板

经过探索钥匙MLOps 治理要通过监管措施和负责任的人工智能运动来解决的主题,现在是时候制定如何实施强大的 MLOps 治理框架了。

跨企业不存在放之四海而皆准的解决方案,企业内的不同用例证明不同级别的管理是合理的,但概述的分步方法可以应用于任何组织来指导实施过程。

该过程分为八个步骤:

  1. 了解分析用例并对其进行分类。

  2. 确立道德立场。

  3. 确立责任。

  4. 确定治理策略。

  5. 将策略集成到 MLOps 流程中。

  6. 选择用于集中治理管理的工具。

  7. 参与和教育。

  8. 监控和完善。

本节将详细介绍每个步骤,包括简单定义和实际实施步骤的“方式”。

第 1 步:了解分析用例并对其进行分类

这一步需要定义不同类别的分析用例是什么,以及随后每个用例的治理需求。

针对分析用例的代表性横截面,考虑以下问题的答案。识别不同用例的关键区别特征并对这些特征进行分类。在适当的情况下合并类别。通常,需要将多个类别与每个用例关联起来才能完整地描述它。

  • 什么规定每个用例都受制于什么,有什么影响?特定部门的法规、区域、PII?

  • 谁使用模型的结果?公众?许多内部用户之一?

  • 已部署模型的可用性要求是什么?24/7 实时评分、计划批量评分、临时运行(自助分析)?

  • 任何错误和缺陷的影响是什么?法律、金融、个人、公共信托?

  • 发布的节奏和紧迫性如何?

  • 模型的生命周期和决策影响的生命周期是多少?

  • 模型质量下降的可能速率是多少?

  • 对可解释性和透明度的需求是什么?

第 2 步:确立道德立场

我们确定公平和道德考虑因素是有效治理的重要激励因素,企业可以选择其道德立场,这会影响公众的看法和信任。企业所采取的立场是实施该立场的成本与公众看法之间的权衡。负责任的立场很少会导致短期财务成本为零,即使长期投资回报率可能是正的。

任何 MLOps 治理框架都需要反映公司的道德立场。虽然职位通常会影响模型的作用和方式,但 MLOps 治理流程需要确保部署的模型符合所选的道德立场。这种立场可能会更广泛地影响治理过程,包括新模型的选择和验证以及意外伤害的可接受可能性。

考虑以下道德问题:

  • 社会福祉的哪些方面很重要?例如,平等、隐私、人权和尊严、就业、民主、偏见

  • 是否考虑对人类心理的潜在影响?例如,人与人或人与人工智能的关系、欺骗、操纵、剥削

  • 是否需要对财务影响表明立场?例如,市场操纵

  • 决策应该有多透明?

  • 企业希望对 AI 驱动的错误承担何种程度的责任?

第 3 步:确立责任

确定负责监督 MLOps 治理的人员组及其角色。

  • 让整个组织、跨部门、从管理层级的上到下参与进来。

  • 彼得·德鲁克 (Peter Drucker) 的名言“文化将战略作为早餐”强调了广泛参与和共同信念的力量。

  • 避免创建全新的治理结构。查看已经存在的结构并尝试将 MLOps 治理纳入其中。

  • 获得高级管理层对治理流程的支持。

  • 考虑不同级别的责任:

    • 战略:制定愿景

    • 战术:实施和执行愿景

    • 运营:每天执行

  • 考虑为完整的 MLOps 流程构建 RACI 矩阵(见图8-4)。RACI 代表负责任、负责、咨询、知情,它强调了不同利益相关者在整个 MLOps 流程中的角色。您在此阶段创建的任何矩阵很可能都需要在稍后的过程中进行细化。

图 8-4 MLOps 的典型 RACI 矩阵

第 4 步:确定治理策略

了解范围和目标对于现已建立的治理以及负责任的治理领导者的参与,现在是考虑 MLOps 流程的核心政策的时候了。这不是一项小任务,不太可能在一次迭代中实现。专注于制定广泛的政策领域,并接受经验将有助于完善细节。

考虑步骤 1 中的计划分类。在每种情况下团队或组织需要哪些治理措施?

在不太担心风险或监管合规性的举措中,更轻、更便宜的措施可能是合适的。例如,用于确定不同类型的机上餐食数量的“假设”计算影响相对较小,毕竟,即使在引入机器学习之前,这种组合也从来都不是正确的。即使这样一个看似微不足道的用例也可能会产生伦理影响,因为膳食选择可能与宗教或性别相关,而这些在许多国家都是受保护的属性。另一方面,确定飞机加油水平的计算所带来的风险要大得多。

治理考虑因素可以大致分为表 8-3中的标题。对于每个标题,每个类别都有一系列需要考虑的措施。

表 8-3 MLOps 治理注意事项
治理考虑措施示例
再现性和可追溯性完整的虚拟机和数据快照用于精确快速的模型重新实例化,或者能够重新创建环境并使用数据样本重新训练,或者仅记录已部署模型的指标?
审计和文件记录开发期间所有更改的完整日志,包括实验运行和做出选择的原因仅自动记录已部署模型根本没有文档
人在环中签核每个环境移动(开发、QA、预生产、生产)的多次签核
生产前验证通过手动编码模型并比较结果在类似生产的环境中重新创建完全自动化的测试管道来验证模型文档,并使用广泛的单元和端到端测试用例仅对数据库、软件版本和命名标准进行自动检查
透明度和可解释性使用手动编码的决策树以获得最大的可解释性,或使用回归算法的可解释性工具(例如 Shapely 值)接受不透明算法(例如神经网络)
偏见和伤害测试“红队”使用多种工具和攻击向量进行对抗性手动测试,或对特定亚群进行自动偏差检查
生产部署模式容器化部署到弹性可扩展的高可用性、多节点配置,在部署或单个生产服务器之前进行自动压力/负载测试
生产监控实时错误警报、动态多臂强盗模型平衡、自动夜间再训练、模型评估和重新部署或每周输入漂移监控和手动再训练基本基础设施警报,无监控,无基于反馈的再训练
数据质量和合规性PII 考虑因素包括匿名化以及记录和审查的列级沿袭,以了解数据的来源、质量和适当性,以及自动数据质量检查异常

最终确定的治理政策应提供:

  • 确定任何分析计划的分类的过程。这可以作为清单或风险评估应用程序来实施。

  • 针对治理考虑的计划分类矩阵,其中每个单元标识所需的措施。

第 5 步:将策略集成到 MLOps 流程中

一旦治理已经确定了针对不同类别举措的政策,需要将实施这些政策的措施纳入 MLOps 流程,以及采取行动所分配措施的责任。

虽然大多数企业都有现有的 MLOps 流程,但很可能尚未明确定义,而是根据个人需求进行了演变。现在是重新审视、增强和记录该流程的时候了。只有明确沟通并寻求每个利益相关者群体的支持,治理流程才能成功采用。

通过采访负责人来了解现有流程中的所有步骤。如果没有现成的正式流程,这通常比听起来更难,因为流程步骤通常没有明确定义,而且所有权不明确。

尝试将政策驱动的治理措施映射到对流程的理解中将很快发现流程中的问题。在一个企业内可能存在一系列不同风格的项目和治理需求,例如:

  • 一次性自助服务分析

  • 内部消耗模型

  • 嵌入公共网站的模型

  • 部署到物联网设备的模型

在这些情况下,某些进程之间的差异可能很大,因此最好考虑多个并行进程。最终,每个用例的每个治理措施都应该与一个流程步骤以及最终负责的团队相关联,如下所示:

工艺步骤示例活动和治理注意事项
业务范围记录目标、定义 KPI 并记录签核:出于内部治理考虑
构思

数据发现:数据质量和法规遵从性约束

算法选择:受可解释性要求的影响

发展

数据准备:考虑 PII 合规性、法律区域范围的分离、避免输入偏差

模型开发:考虑模型的可重复性和可审计性模型测试和验证:偏见和伤害测试、可解释性

预生产

使用生产数据验证性能/偏差

生产就绪测试:验证可扩展性

部署

部署策略:由操作化水平驱动

部署验证测试使用影子挑战者或 A/B 测试技术进行生产验证

监控和反馈

性能指标和警报

通过警报进行输入漂移的预测日志分析

第6步:选择集中治理管理工具

MLOps 治理流程会影响整个 ML 生命周期以及整个组织中的许多团队。每个步骤都需要执行特定的操作和检查序列。模型开发和治理活动执行的可追溯性是一项复杂的挑战。

大多数组织在流程管理方面仍然采用“纸质表格”思维方式,即填写、传阅、签名和归档表格。表格可以是文本文档,通过电子邮件分发,并以电子方式提交,但纸质文件的局限性仍然存在。很难跟踪进度、关联工件、一次审查多个项目、提示采取行动以及提醒团队责任。事件的完整记录通常分布在多个系统中并由各个团队拥有,这使得对分析项目的简单概述实际上是不可能的。

虽然团队将始终拥有特定于其角色的工具,但如果从一个系统管理和跟踪总体流程,则 MLOps 治理会更加有效。该系统应该:

  • 集中定义每一类分析用例的治理流程

  • 启用完整治理流程的跟踪和执行

  • 为发现分析项目提供单一参考点

  • 实现团队之间的协作,特别是团队之间的工作转移

  • 与用于项目执行的现有工具集成

当前的工作流程、项目管理和 MLOps 工具只能部分支持这些目标。一类新的机器学习治理工具正在出现,可以直接、更全面地支持这一需求。这些新工具专注于机器学习治理的具体挑战,包括:

  • 所有模型状态的单一视图(也称为模型注册表)

  • 具有签核机制的流程门可随时追踪决策历史

  • 能够跟踪模型的所有版本

  • 能够链接到工件存储、指标快照和文档

  • 能够专门针对每一类分析用例定制流程

  • 能够集成生产系统的健康状况监控并跟踪性能针对原始业务 KPI 的模型

第 7 步:参与和教育

没有参与和培训计划对于参与监督和执行治理的团体过程中,它甚至被部分采用的机会很小。必须传达 MLOps 治理对业务的重要性以及每个团队贡献的必要性。基于这种理解,每个人都需要了解他们必须做什么、何时以及如何做。这项工作需要大量的文件、培训,最重要的是,需要时间。

首先传达业务中 MLOps 治理的广泛愿景。强调现状的危险,概述一个过程,并详细说明它是如何根据用例范围进行定制的。

直接与每个相关团队接触,并直接与他们一起制定培训计划。不要害怕利用他们的经验来塑造培训,以及他们治理责任的具体实施。结果将是更强大的支持和更有效的治理。

第 8 步:监控和优化

新实施的治理是否有效?规定的步骤是否得到执行,目标是否达到?如果事情进展不顺利,应该采取什么行动?我们如何衡量当今现实与业务需求之间的差距?

衡量成功需要指标和检查。它要求人们负责监控并找到解决问题的方法。治理流程及其实施方式需要根据吸取的经验教训和不断变化的要求(包括,如本章前面所述,不断变化的监管要求)随着时间的推移进行完善。

该过程成功的一个重要因素是负责过程中各个措施的个人的勤奋,而激励他们是关键。

监控治理流程始于对关键绩效指标和目标(治理的 KPI)的清晰理解。这些应该旨在衡量流程是否正在制定以及目标是否正在实现。监控和审计可能非常耗时,因此请尽可能实现指标自动化,并鼓励各个团队负责与其职责范围相关的指标监控。

很难让人们执行看似对工作人员没有任何具体帮助的任务。解决这个问题的一种流行策略是游戏化。这并不是要让一切看起来都像电子游戏,而是要激励人们执行主要利益由他人获得的任务。

寻求以简单的方式将治理流程游戏化:广泛发布 KPI 结果是最简单的起点。只要能够看到目标得到实现,就是满足感和动力的源泉。排行榜,无论是团队层面还是个人层面,都可以增加一些建设性的竞争元素。例如,那些工作始终能够一次性通过合规性检查或按时完成工作的人应该能够感觉到他们的努力是可见的。

然而,过度的竞争可能会造成破坏并降低积极性。必须达到平衡,最好通过随着时间的推移慢慢建立游戏化元素来实现这一点。从最不以竞争为导向的开始,逐一添加新元素,在添加下一个元素之前衡量其有效性。

监测治理格局的变化至关重要。这可能是监管方面的,也可能是舆论方面的。那些负责战略愿景的人必须继续对其进行监控,并制定一个评估潜在变化的流程。

最后,只有针对问题采取行动,所有流程监控才有意义。建立同意变革并实施变革的流程。这可能会导致重新审视政策、流程、工具、责任、教育和监控!需要迭代、细化,但效率和效果之间很难找到平衡点;许多教训只能通过惨痛的经历才能吸取。建立一种文化,让人们将迭代和改进视为成功流程的衡量标准,而不是失败流程的衡量标准。

总结

很难将 MLOps 与其治理分开。如果没有治理,就不可能成功地管理模型生命周期、降低风险和大规模交付价值。治理影响着方方面面,从业务如何可接受地利用 ML,到可以使用的数据和算法,再到操作、监控和再培训的风格。

大规模 MLOps 还处于起步阶段。很少有企业在这样做,做得好的就更少了。虽然治理是提高 MLOps 有效性的关键,但目前几乎没有工具可以直接应对这一挑战,而且只有零碎的建议。

公众对 ML 的信任受到威胁。即使是像欧盟这样行动缓慢的组织也明白这一点。如果失去信任,那么从机器学习中获得的许多好处也将随之消失。正在准备额外的立法,但即使没有这项立法,企业也需要担心无意中有害的模型可能对其公众形象造成潜在损害。

在计划扩展 MLOps 时,请从治理开始,并用它来驱动流程。不要在最后用螺栓固定。仔细考虑政策;考虑使用工具来提供集中视图;参与整个组织。这需要时间和迭代,但最终企业将能够回顾过去,并为自己认真对待自己的责任而感到自豪。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sonhhxg_柒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值