一文读懂数据科学、机器学习和AI区别在哪里?

翻译 2018年01月22日 12:32:39

原文:What’s the difference between data science, machine learning, and artificial intelligence?
作者:David Robinson
译者: Vincent

译者注:作者是一名数据科学家,每当跟别人提起这项工作,总有人会把它跟人工智能和机器学习弄混淆,那你清楚这三个领域之间有啥区别吗?不妨跟随作者的思路,一起来了解一下吧!以下为译文。

当我跟别人介绍自己是一名数据科学家时,别人总会问我“数据科学与机器学习之间有什么区别?”或者“那你从事的工作一定是跟人工智能有关吧?”关于这些问题我已经回答过了无数次了,每次解释的答案都是基于我自己总结的“三原则”:

相同的代码如果写了3次,那最好把它写成函数

当相同的建议跟别人说了3次,那最好把这些建议写成一篇博客

— David Robinson(@drob)2017年11月9日

这几个领域之间的确存在着很多重叠的地方,但是其实它们之间并不是可互换的:这些领域的大多数专业人士对如何将特定的工作分类为数据科学、机器学习还是分类为人工智能,都有一种直观的见解,即使这种见解很难用语言表达。

所以在这篇文章里面,我将对三个领域之间的差异性做一个简短的定义,该定义如下:

  • 数据科学负责见解
  • 机器学习负责预测
  • 人工智能负责行为

需要清楚的是,这三者之间的限定并不是那么绝对:并不是所有符合每个定义的东西都只属于这个领域。(就像算命先生在做预测,但是他们并不是机器学习!)当然,这些差异也不是确定某个人角色或职位的好方法(“我是数据科学家吗?”),这是跟经验相关的。

但是我认为这个定义是区分这三种工作的有效方法,并且如果谈论三者之间的区别的时候,这个回答听起来也不会很傻。值得注意的是,我使用的是描述性的方法而不是说明性的方法:我对这些术语“应该是什么”并不感兴趣,而是对该领域的人们通常如何使用它们感兴趣。

数据科学负责见解

数据科学与其他两个领域不同,因为它的目标跟人类的目标尤其接近:获得洞察力和理解力。Jeff Leek对数据科学所能达到的见解类型有一个很好的定义,包括描述性,探索性和因果关系。

同样,并不是所有产生见解的东西都有资格成为数据科学(数据科学的经典定义是它包含了统计、软件工程和领域专家的结合)。但是我们可以用这个定义把数据科学同机器学习和人工智能区别出来。它们之间的主要区别在于,在数据科学中,总是有一个人在循环当中:某人理解这个观点,看到数字,或者从结论中获益。说“下棋算法使用数据科学来选择下一步行动”,或者“谷歌地图使用数据科学来推荐驾驶方向”都是毫无意义的。

因此,数据科学的定义强调:

  • 统计推断
  • 数据可视化
  • 实验设计
  • 领域知识
  • 沟通

数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。

机器学习负责预测

我认为机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。

数据科学和机器学习之间有很多重叠。例如,可以使用逻辑回归得出见解的关系(“富裕的用户更有可能会买我们的产品,所以我们应该改变我们的营销策略”),从而进行预测(“该用户有53%机会购买我们的产品,所以应该把产品推荐给他们”)。

像随机森林这种模型可解释性稍差,更适合“机器学习”的描述,而深度学习等方法则难以解释。如果你的目标是获取真知灼见,而不是做出预测,这可能会妨碍你。因此,我们可以假设有一个数据科学和机器学习的“光谱”,更倾向于数据科学的可解释模型和机器学习方面更多的“黑匣子”模型。

大多数的实践者会在两个任务之间来回切换非常轻松。在我的工作中使用了机器学习和数据科学:我可以在Stack Overflow上安装一个模型,以确定哪些用户可能正在寻找工作(机器学习),然后构建总结和可视化来检验模型的工作原理(数据科学)。 这是发现模型中的缺陷,并与算法偏见作斗争的重要途径。这是数据科学家经常负责开发产品的机器学习组件的原因之一。

人工智能负责行为

人工智能是这三个名称当中迄今为止最古老以及最广为人知的,因此它的定义也是最具有挑战性的。感谢那些寻求金钱或关注的研究人员、记者和初创公司,使得人工智能这一术语被大量的传播和营销。

当你筹集资金的时候,这属于人工智能。

当你在招聘时,这属于机器学习。

当你执行时,这属于线性回归。

调试时,这属于printf()

— Baron Schwartz (@xaprb) 2017年11月15日

在“人工智能”的所有定义中,有一个共同点就是自主代理人执行或推荐操作(例如Poole, Mackworth和Goebel 1998, Russell和Norvig 2003)。一些我认为应该描述为AI的系统包括:

  • 游戏算法(Deep BlueAlphaGo)
  • 机器人技术与控制理论(运动规划,行走两足机器人)
  • 优化(谷歌地图选择路线)
  • 自然语言处理(bots)
  • 强化学习

同样,我们可以看到很多与其他领域的重叠。深度学习既属于机器学习范畴,又属于AI领域,这是非常有趣的。典型的用例是对数据进行训练,然后生成预测,在像AlphaGo这样的博弈算法中已经取得了巨大的成功。

但也有区别。如果我分析一些销售数据并发现特定行业的客户比其他行业的客户更新更多,那么输出是一些数字和图形,而不是特定的操作。(高管们可能会用这些结论来调整销售策略,但这种做法并不是自动的)。

人工智能和机器学习之间的区别更加微妙,历史上的机器学习经常被认为是人工智能的一个分支(特别是计算机视觉,这是一个典型的人工智能问题)。但我认为,机器学习领域很大程度上已经从人工智能独立出来了,部分原因是上面描述的反弹案例:大多数从事预测问题的人不喜欢把自己描述为人工智能研究人员。

根据今天的定义,y=mx+b是一个人工智能机器人,它可以告诉你一条线的去向。

— 艾米Hoy✨(@amyhoy)3月29日,2017年

案例研究:三项技术如何一起使用?

假设正在建造一辆无人驾驶车,现在卡在了停车标志这个具体问题上面。我们需要用到这三个领域之间的相关技术。

  • 机器学习:汽车必须通过摄像头识别停车标志。我们构建了数以百万计的街边物体照片数据集,并训练算法来预测哪些街边是有停车标志。

  • 人工智能:一旦汽车能够识别停车标志,它就需要决定何时采取刹车动作。我们需要它能够根据不同的路况进行判断(例如,在湿滑的路面上要能知道不能刹车刹的太快),太早或太晚都是有危险的,这属于控制理论的范畴。

  • 数据科学:街头测试的结果证明这辆车的性能还不够好,在某些场景下面,它可能沿着停车标志额右边行驶,但是这种情况漏报了。在分析了街道测试数据之后,我们得到了结论,漏报场景的概念根据一天当中不同的时间段有关:在日出之前或日落之后,更有可能错过一个停车标志。我们发现了大部分的数据集里面的数据只包含了白天的物体,因此又构造了一个更好的数据集,它包括了夜间图像,然后重新回到机器学习步骤。


欢迎加入CSDN人工智能技术交流QQ群:299059314,内涵大量学习材料。
这里写图片描述这里写图片描述

一文读懂数据科学、机器学习和AI区别在哪里?

原文:What’s the difference between data science, machine learning, and artificial intelligence? 作者:...
  • dev_csdn
  • dev_csdn
  • 2018年01月22日 12:32
  • 4182

数据科学、机器学习和AI的区别

数据科学、机器学习和AI的区别http://www.bieryun.com/1379.html本文详细讲解了数据科学、机器学习和AI的相同点与区别,并用实例进行说明。当我进行以数据科学家进行自我介绍时...
  • qq_37450024
  • qq_37450024
  • 2018年02月16日 19:24
  • 40

一文读懂机器学习、数据科学、深度学习和统计学之间的区别

一文读懂机器学习、数据科学、深度学习和统计学之间的区别 [日期:2017-04-12] 来源:数盟  作者: [字体:大 中 小]   明晰了数据科学家所具有的...
  • hzp666
  • hzp666
  • 2017年04月13日 10:25
  • 3095

数据科学、机器学习和AI的区别在哪里

转自:http://blog.csdn.net/dev_csdn/article/details/79127658 ...
  • qq_17368865
  • qq_17368865
  • 2018年01月22日 14:16
  • 27

一文读懂深度学习与机器学习的差异

文章来源 | OSC 如果你经常想让自己弄清楚机器学习和深度学习的区别,阅读该文章,我将用通俗易懂的语言为你介绍他们之间的差别。 机器学习和深度学习变得越来...
  • qq_40027052
  • qq_40027052
  • 2017年10月30日 00:00
  • 171

一文读懂机器学习,大数据/自然语言处理/算法全有了……

阅读目录 1.一个故事说明什么是机器学习2.机器学习的定义4.机器学习的方法5.机器学习的应用–大数据6.机器学习的子类–深度学习7.机器学习的父类–人工智能8.机器学习的思考–计算机的潜意识9...
  • wangshfa
  • wangshfa
  • 2015年05月21日 16:44
  • 1135

一文读懂机器学习大数据/自然语言处理/算法全有了【一】

机器学习是什么,为什么它能有这么大的魔力,这些问题正是本文要回答的。同时,本文叫做“从机器学习谈起”,因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(如数据挖掘、计算机视觉等),算法(神经网...
  • tangdong3415
  • tangdong3415
  • 2016年09月05日 14:41
  • 1823

机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实 践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能...
  • chenpeng19910926
  • chenpeng19910926
  • 2016年12月15日 16:43
  • 276

一文读懂机器学习

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进...
  • lixiangyong123
  • lixiangyong123
  • 2016年12月28日 11:05
  • 298

数据科学之机器学习4:线性回归3

“文章原创,转载请注明出处” 这是介绍线性回归的最后一篇,首先回顾一下之前的两篇。第一篇主要就是介绍了如何去估计回归系数得到回归方程,以及在R语言中如何使用自带的函数去实现。第二篇主要介绍了对于...
  • QQ415171148
  • QQ415171148
  • 2014年05月09日 14:41
  • 779
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:一文读懂数据科学、机器学习和AI区别在哪里?
举报原因:
原因补充:

(最多只允许输入30个字)