(英国剑桥大学)部署机器学习中的挑战:案例研究综述(上)中文译文 Challenges in Deploying Machine Learnings: a Survey of Case Studies

论文原文:https://arxiv.org/pdf/2011.09926.pdf

翻译:闪闪·Style

 

摘要

近年来,作为一个学术研究领域,同时也是实际商业问题的一种解决方案,机器学习越来越受到人们的关注。然而,在生产系统中部署机器学习模型可能会引发一些问题和关注点。本综述回顾了在各种用例、行业与应用程序中部署机器学习解决方案的公开报告,并提取了与机器学习部署工作流阶段相对应的多个实际考虑事项。我们的调查显示,从业者在部署的每个阶段都面临挑战。本文的目标是规划一个研究议程,以探索解决这些挑战的方法。

(1)介绍

机器学习已经从单纯的学术研究领域发展到应用领域。事实上,根据麦肯锡公司最近进行的一项全球调查,机器学习越来越多地应用于标准业务流程中,同比增长近25%[1],公众、企业领袖[2]和政府[3]对机器学习的兴趣与日俱增。

这种转变伴随着挑战。与其他领域一样,学术环境中的工作原理与现实世界系统的要求之间存在显著差异。在这一过程中,应该始终预料到会存在某些瓶颈和无效的假设。随着更多的解决方案被开发出来并被部署,从业人员有时会以各种形式报告他们的经验,包括各类出版物和博客文章。在这项研究中,我们对这些报告进行了全面评述,以了解当前在生产中部署机器学习所面临的那些挑战。首先,我们提供机器学习部署工作流的概述。第二,我们回顾用例研究,以提取从业者在每个特定部署阶段遇到的问题和关注点。第三,我们讨论了影响部署工作流每个阶段的横切特征(cross-cutting aspects):伦理考量、终端用户的信任与安全性。最后,我们对这些问题的潜在解决方案和进一步的工作进行了简要讨论。

十年前,这种调查已经进行过,尽管目的不同。机器学习主要是一门研究性的学科,在信息技术行业中,在大型科技公司以外很少看到针对商业问题而部署机器学习解决方案。因此,这样一个综述的目的是证明机器学习可以用来解决各种问题,并用实例加以说明,正如Pechoucek和Marík[4]所做的那样。如今,人们关注的焦点已经发生了变化:机器学习在许多行业中被普遍采用,而问题不再是“在哪里使用它?”而是“使用起来有多困难?”

评估企业机器学习部署现状的一种流行方法是在专业人员中进行调查。此类调查主要由私营公司进行,涉及各种主题。Algorithmia的报告([5],[6])深入到部署时间轴(timeline)中,大多数公司报告部署单个模型需要8到90天,而18%的公司甚至需要更长的时间。IDC[7]的一份报告调查了2473家组织及其在机器学习方面的经验,发现很大一部分部署尝试失败了,主要原因是缺乏专业知识、数据偏差和高成本。O'Reilly进行了一项访谈研究,重点关注机器学习从业者的工作经验和他们使用的工具[8]。dotscience[9]和dimensional research[10]也制作了更广泛的基于访谈的报告。

虽然有许多关于这个主题的商业报告,但整个机器学习部署流水线上的挑战几乎从未像在学术文献中那样被广泛地涵盖。有一个新兴的出版物领域,专注于已部署的机器学习的特定方面,如:Bhatt等人[11]关注可解释的机器学习,或:Amershi等人[12]讨论了部署机器学习的软件工程方面的内容。也存在大量针对特定行业的综述,我们在下面的适当章节中回顾了其中的一些工作。然而,我们发现的唯一一般性的综述是Baier等人[13],它结合了文献回顾和对行业合作伙伴的访谈。与那篇专注于信息科技行业经验的论文不同,我们的目标是涵盖各个行业的案例研究。我们还特别详细地讨论了文献中最通常被报告的那些挑

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值