什么是MLOps？

最新推荐文章于 2024-10-18 08:53:48 发布

澳鹏Appen

最新推荐文章于 2024-10-18 08:53:48 发布

阅读量4.9k

点赞数

分类专栏：人工智能与机器学习训练数据文章标签：人工智能机器学习运维开发

本文链接：https://blog.csdn.net/Appen_China/article/details/125264888

版权

人工智能与机器学习同时被 2 个专栏收录

223 篇文章 6 订阅

订阅专栏

训练数据

109 篇文章 2 订阅

订阅专栏

MLOps / 机器学习运维

最近几年，机器学习（ML）早已成为商业和科技领域最热门的名词之一，由此驱动的应用也呈现爆发式增长。其根本原因在于，人工智能（AI）产业已由技术萌芽时期进入到规模应用期，企业竞争力也由技术创新驱动升级为“创新+应用”的双轮驱动。作为面向AI工程化实践的重要路径，MLOps开始受到行业的广泛关注。

什么是MLOps？

对于一个成功的ML产品而言，数据科学家需要做的不仅仅是简单地训练一个模型，而是需要将产品需求转化为ML的模式去思考，并为此不断收集数据，在模型之间进行有效迭代、在生产中不断验证、并以稳健的方式去进行部署和管理。

MLOps（Machine Learning Operations / 机器学习运维）是一种ML工程化实践，旨在整合ML模型开发(Dev)和ML模型运维(Ops)，基于一系列流程和最佳实践，通过数据科学家和运维人员之间的敏捷协作来交付ML产品。其目标是尽可能地构建ML流程自动化，以实现持续交付和大规模的AI部署。

为什么要推动MLOps？

MLOps的核心理念在于促进机器学习模型在生产中的快速迭代。然而，由于内部ML流程的孤立性和缓慢性，阻碍企业构建ML的挑战主要有：

✘ 内部流程未实现自动化。

✘ 数据科学家和运营团队合作不足。

✘ 工作流程不明确。

✘ 模型再训练不足导致的性能下降。

✘ 数据监管及合规性问题。

针对这些挑战，MLOps能够带来的益处包括：

✓结合专业知识提高效率：MLOps将运营团队的商业意识与数据科学家的ML专业知识相结合，共同循环协作的同时专注于各自的特长。

✓定义监管流程责任制：运营团队可以监管合规问题，及时了解变化并将信息更新给数据科学团队。

✓减少浪费：MLOps可充分利用每个团队的技能，使之从事各自最擅长的工作，减少重复性劳动、实现流程自动化和快速交付。

✓支持快速迭代：通过持续的集成、交付和自动化，MLOps可促进团队快速迭代，从而缩短成功部署的上市时间并扩大规模。

✓生产更丰富的产品：通过ML生命周期中的最佳实践，MLOps可以确保团队使用更先进的工具和基础架构来支持部署，这使得团队拥有更多的时间进行额外的尝试，更好地提升产品准确性及用户体验。

如何实施MLOps？

那么，在一个企业中如何来具体实施MLOps，可通过ML生命周期的不同阶段来进行简要说明：

数据阶段

▲ 数据采集：在整个ML部署的生命周期中，大量的、一致的、可靠的数据来源对于项目的成功至关重要。因此，需要设置一个可根据需要持续采集数据的流程。

▲ 数据清理：数据清理包括删除不需要或不相关的数据，或是清理散乱的数据。这其中的一些步骤可以通过自动化来实现。

▲ 数据标注：整个ML生命周期中最耗时、最具挑战性、同时也最为关键的阶段可能就是标注数据的过程。然而，在企业内部进行这一步骤往往需要耗费大量的时间和资源。选择与专业的外部数据提供商合作，在提供大量且多元化的标注人员的同时，更专业的标注平台和工具亦可帮助实现流程自动化，满足大量不同的标注需求。

模型构建阶段

▲ 模型训练：ML中有许多模型训练方法（包括从完全监督到半监督、无监督，以及介于三者之间的各种方法）。在这一步，将使用高质量的训练数据集来告诉模型需要学习识别哪些特征。

▲ 模型测试和验证：根据测试集评估模型的性能，判断模型是否达到所需的KPI。在模型正式部署前，必须对整个系统进行验证，以确保其能够按照预期正确运转。

▲ 模型部署：模型被正式部署到生产中，系统上线。在整个过程中，运营团队应始终了解ML开发的每个阶段，并为模型创建一个存储库，这将有助于实现正确部署所需的透明度。

后期处理阶段

▲ 监控：根据KPI持续监控模型。如果模型未能满足要求，应设置警报并制定应对计划。

▲ 再训练：再训练是ML开发中关键但却往往被忽略的一步。当外部环境发生变化时，通过新的数据对模型不断进行再训练至关重要。

MLOps是构建工程化AI/ML生命周期的重要实践。随着MLOps生态的逐渐成熟，更多的新工具正在持续加强其所涉及的各个环节的功能，从而降低ML团队在实际生产中运用先进模型和算法的门槛和成本，打通算法、场景、数据之间的壁垒，真正实现ML的转化和落地。

一键传送至 Appen MatrixGohttps://www.appen.com.cn/solutions/platform-overview/

澳鹏Appen深刻了解当今企业的这一需求。自成立25+年来，澳鹏Appen持续通过大量、高质量的AI训练数据，为世界上最具创新性的ML和商业解决方案提供支持，包括数据采集、数据标注及模型再训练等。澳鹏Appen中国自主研发的人工智能辅助数据标注平台——MatrixGo，集成了各种ML辅助的先进工具及丰富的标注场景。