数据专家终结者?AutoML这样改变世界……

559 篇文章 5 订阅

全文共2802字,预计学习时长8分钟

图源:unsplash

2012年,科学家们发布了一份关于Auto-WEKA的arXiv报告,介绍了一种自动选择机器学习算法、功能和超参数的方法,希望它能在该领域“帮助非专业用户”。

最近,随着所有大型科技公司进入该领域,AutoML得以迅速普及。

2016年4月,Facebook宣布机器学习是其AI的“支柱”;2018年1月,谷歌发布了Cloud AutoML;2018年8月,Salesforce对其Einstein AutoML图书馆进行了开源;一个月后,微软将机器学习引入其Azure AI平台;今年早些时候,亚马逊推出了AutoGluon,这是另一个开源的机器学习工具包AutoGluon。

图源:CBInsights

AutoML的发展现状

CB Insights列出了40多家机器学习公司,当然肯定还有很多公司,这里仅仅是一部分:

Accern,Aible,AIgatha,Aito,Amenity Analytics,Auger,BACC,beynd,causaLens,CybordIntell,DarwinAI,DeepBlue Technology,dotData,Edge,Evolv Technologies,Explorium,Feedzai,Figure Technologies,Flywheel,H2O.ai,henQ ,Hiretual,Industrial Analytics,浪潮集团(Inspur Group),Intento,MAANA,Marlabs,MindsDB,Monitor,Moorfields Eye Hospital,Node,Plataine,Qeexo,Redpepper,Risk Ledger,Servian,Sittercity,Stack Data,Stratifiedd和SmartHUB。

如果将目光转向YCombinator的创业学校论坛、/r/startups,或者只是Twitter,我们就会发现,创业者们正在涌向新的机器学习和无代码的AI项目。

无代码AI:AutoML的子集

 

“无代码AI”和机器学习之间的区别值得注意,机器学习通常是无代码或低代码的,但也有代码繁重或技术复杂的机器学习解决方案,比如Auto-WEKA。Apteo这样的无代码AI和分析解决方案旨在尽可能简化机器学习,消除所有技术的入门障碍。

AutoML的优势

大力宣传机器学习是有充分理由的:机器学习是许多组织必备的工具。以Salesforce为例,他们的“客户期望预测一系列的结果——从客户流失、销售预测,并引导转换到电子邮件营销点击率、网站购买、提供接受、设备故障、延迟付款等等”离不开机器学习。

简而言之,机器学习无处不在。然而,为了让ML对每个客户都有效,他们的做法不是“为每个数据库构建和部署成千上万的针对每个客户的个性化的机器学习模型训练数据”,而是“无需雇佣大量的数据科学家就能实现这一目标的唯一方法,就是通过自动化。”

虽然许多人认为机器学习易于使用,能提高效率,但实际上对于许多企业应用程序来说,你别无他选。Facebook、Salesforce或Google这样的公司无法雇佣数据科学家为其数十亿用户中的每一个人构建定制模型,所以他们使机器学习自动化,从而大规模地实现独特的模型。

AutoML组件的数量取决于平台,但是使用Salesforce时,它包括特性推断、自动特性工程、自动功能验证、自动模型选择和超参数优化。这意味着数据科学家可以在生产中部署数以千计的模型,无需繁重的工作和手工调整,从而大幅减少周转时间。

通过将工作从数据处理转向更有意义的分析,机器学习实现了更具创造性、以业务为中心的数据科学应用程序。

图源:unsplash

AutoML的劣势

由于其廉价、高效、简单等特性,我们希望机器学习取代数据科学家。但是,AutoML也有缺点。

在说这些缺点前请注意,它们与AutoML的准确性或可用性无关。例如,一些人声称AutoML不能处理强化学习,这被AlphaZero的例子证明是错误的,它是一种无需领域知识就可以开始发挥作用的超人模型。

还有一些人说AutoML在无监督的情况下无法学习,这也是不正确的。还有人说AutoML无法做功能工程设计,这也被Salesforce的AutoML证明是错误的,该例子在自动功能工程之后做了数十亿的预测。

AutoML最大的缺点是没有商业直觉。AutoML可以让你更快地获得生产就绪的模型,但它不会说明为什么使用ML或业务理由是什么,更不用说尝试从大量可用机会中解决一个合理的问题。

现在假设你使用直觉选择一个问题,并以某种方式将所有涉众联合起来(即使没有数据科学家参与)——仍然需要找到正确的培训数据,AutoML无法首先选择数据(要弄清楚哪些所拥有的数据能够指明试图解决的问题)。

假设我们选择了一个问题,协调利益相关方,找到指示性数据。建立模型后,我们很容易遇到偏见问题。人类天生就有偏见,这种偏见反映在输出的数据中。如果在有偏差的数据上盲目地训练模型,那么模型很可能会有偏差。这一点在亚马逊的性别歧视招聘算法或谷歌的种族主义图像分类算法中可以明显看出。

此外,一旦模型建立,软件工程师仍需将其集成到平台的其他部分。然而,软件工程师通常并不了解AI的局限性,所以你可能最终会得到一个错误的模型。

最后,假设你已经将模型投入生产,数据科学家最有可能看到模型的增值,因为他们是支持AI运用的人。如果没有数据科学家,你就可能会错误地理解使用该功能,并且不了解它在哪些使用案例中真正发挥了作用。

结论

图源:unsplash

AutoML成为一个快速发展的领域是有充分原因的。它允许大规模定制ML模型,生成数十亿个预测,并且不需要大量数据科学家。

然而,AutoML的广泛应用并不意味着数据科学家将毫无用武之地,它无法“自动选择”解决业务问题,无法自动选择指示性数据,它无法自动瞄准的利益攸关方,也不会自动对潜在的偏见进行道德判断,不能自动整合产品,而且不能提供自动营销。这些都是数据科学家可以发挥作用的领域。

AutoML会成为企业AI版图中很重要的一个部分,和数据科学家一同帮助企业有意义地实现AI。

一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值