【人工智能】数据科学、机器学习和人工智能：没有多大交集，区别是什么，2017年发展和2018年趋势又是如何？

翻译 | AI科技大本营

参与 | Shawn

编辑 | Donna

［AI科技大本营导读］我们常常提及数据科学、机器学习和人工智能，也有一个整体的概念。但是，如果要清晰地说出三者的定义分别是什么，区别又是什么，相信能说出来的读者并不多。营长找到一篇Stack Overflow的数据科学家David Robinson的文章，用深入潜出的语言，诙谐地解释了三者地区别。

每当我告诉别人我是数据科学家时，他们经常问我：“数据科学和机器学习有什么区别？”，或者“也就是说你做人工智能的？”。

这些问题我解释了很多很多次，看来是时候用到我的“三法则”了：

同一代码你写了3次，那就编个函数

同一建议你当面向别人提了3次，那就写一篇博文

— David Robinson (@drob)

事实上，这三个领域是不可互换的，也没有多大交集，炒作营销的成分太多。许多从事这三个领域的专业人士都能从直觉上判断出什么是数据科学，什么是机器学习，什么是人工智能，但是很难说出具体区别是什么。

在这篇文章中，我就这三个领域的区别提出了一个过度简化的定义：

数据科学理解事物

机器学习预测事物

人工智能生成行动

澄清一点，我认为这个定义可以很好地帮助我们区分这三个领域，但是不能作为判定条件：符合其中一个领域的定义并不代表属于这个领域。靠这些定义来判断某人的工作或职位也是不靠谱的。真正要看的是他的专业和经验。（这适用于任何工作：写文章是我工作的一部分，但我并不是职业作家）。

需要注意的是，我是从描述的角度叙述问题的。也就是说，我感兴趣的是业内人通常是如何使用这些术语的。

数据科学理解事物

与其他两个领域不同，数据科学的目标是认识和理解事物。这也是人类的一个目标。Jeff Leek就数据科学能实现哪些类型的理解作出了一个很好的定义（http://jtleek.com/modules/01_DataScientistToolbox/03_01_typesOfQuestions/#1）。

在这个定义中，既有描述性内容（“普通客户续费的概率为70%”），也有解释性内容（“不同的销售人员有不同的续费率”）以及表因果的内容（“随机实验表明派给Alice的客户续费的概率比派给Bob的客户高”）。

数据科学的经典定义为：这是一门结合统计学、软件工程学和专业知识的学，也就是说，不是所有能理解事物的技术都属于数据科学。

但是我们可以使用这个定义将数据科学与ML和AI区分开来。数据科学与后两者最大的区别是它有人类的参与：人类理解结论、观察数据并从结论中获益。“象棋算法利用数据科学来决定下一步棋怎么走”或者“谷歌地图利用数据科学建议行驶方向”根本就是无稽之谈。

数据科学的定义强调：

统计推断

数据可视化

实验设计

专业知识

交流

数据科学可以使用简单的工具：根据SQL问题报告百分比和绘制线图。它也可以使用非常复杂的方法：分析分布式数据库中的数万亿条记录，提出先进的统计学方法，构建互动式的可视化工具。

无论数据科学使用什么方法，它的目标都是更好地理解数据。

机器科学生成预测

我认为机器学习就是做预测：“给定实例X以及特定特征，预测Y”。这些预测可以是对未来的预测（例如：“预测病人是否会患上脓毒病”），也可以是对质量的预测，这种问题计算机无法立刻得出结论（例如：“预测图像中是否有一只鸟”）。

几乎所有Kaggle竞赛解决的都是机器学习问题：向参赛者提供数据，看他们能否对新的例子做出准确的预测。

数据科学和机器学习之间有很多交集。例如，逻辑回归可以用来研究关系（“用户越有钱，其购买我们产品的概率就越大，因此我们应该改变我们的营销策略”），也可以用来做预测（“该用户购买我们产品的概率为53%，因此我们应该向他推荐产品”）。

诸如随机森林这样的模型解释起来不是太难，它们更适合归类为“机器学习”，而深度学习这样的方法解释起来往往非常困难。如果你的目标是得出结论而不是做出预测，这个问题就会成为阻碍。

我们可以将数据科学和机器学习想象成一个“谱”，较容易解释的模型靠近数据科学一侧，“黑箱”模型则靠近机器学习一侧。

大多数从业者可以非常从容地在来回切换于两种任务之间。譬如我的工作既使用机器学习，也使用数据科学：我有时会用Stack Overflow的流量数据拟合某一模型，来判断哪些用户可能在寻找工作（机器学习），然后做出总结并构建用于研究模型工作原理的可视化工具（数据科学）。

这样做可以帮你发现模型的缺陷，克服算法歧视(algorithmic bias)。正是出于这个原因，产品的机器学习模块往往是由数据科学家负责开发的。

人工智能生成行动

在这三个领域之中，人工智能是发展最久、普遍认可度最高的，同时它也是最难定义的。寻求财富或关注的研究人员、记者和初创企业让 “人工智能”这个术语几乎成了炒作的代名词。

如果你在筹资，就是AI

如果你在招聘，就是ML

如果你在实践，就是线性回归如果你在debug，就是printf()

— Baron Schwartz (@xaprb)

这种炒作导致AI受到一些挫折，在我看来实属不幸，有些工作可能应该被称为是AI，但是却没人认为是。有些研究人员甚至抱怨AI效应：“我们现在还没法做到的都是AI”。

人工智能的所有定义都有一个共同的界定：人工智能是一个可以执行或建议行为的自主代理。我认为可以被称为是AI的系统包括：

博弈游戏算法（Deep Blue、 AlphaGo）

机器人学和控制理论（运动规划，控制双足机器人的行走）

优化（谷歌地图选择路线）

自然语言处理（自动程序）

强化学习

机器学习和人工智能也有很多交集。深度学习就是横跨ML和AI的一个典型例子。深度学习的典型应用是：用数据训练模型，然后让模型作出预测。另外，它在博弈游戏算法（如AlphaGo）的开发上也起到了巨大的作用。先前的博弈游戏系统，如Deep Blue，更着重于探索和优化未来的解空间（solution space）。

数据科学和AI也是有区别的。如果通过分析销售数据发现，某些行业的客户续费的概率高于其他客户（得出结论），输出的是数字和统计图，而不是具体的行为。（高管可能会根据这种结论改变销售策略，但是这种行为不是自动的）。这意味着我的工作可以算作是数据科学：如果我说“我使用AI来提高销售量”，那就太做作了。

请不要因为某人训练了一个算法就说他“利用了AI的力量”

— Dave Gershgorn (@davegershgorn)

人工智能和机器学习的区别更为微妙，过去ML一直被认为是AI的一个子领域（计算机视觉就是一个典型AI问题）。但是我认为ML在很大程度上已经脱离了AI，上文提到的炒作后果是造成这一结果的一个原因。

大多数研究预测问题的人不喜欢自称为AI研究者。（机器学习的许多重大突破都来源于统计学，而后者在AI领域的作用并没有多大）。这意味着，当你要解决的问题是“根据Y预测X”时，我建议你尽量避免使用AI这个术语。

按照当前的定义，y=mx+b是一个可以给出线的方向的AI程序。

— Amy Hoy (@amyhoy)

实例研究：

如何同时利用这三个领域？

假设我们在开发自动驾驶汽车，我们要解决在遇到停车标志时停车的问题。我们需要使用到这三个领域的技术。

机器学习：汽车必须使用摄像机识别停车标志。我们构建一个由数百万张街景照片组成的数据集，然后用它训练算法，让算法预测哪些照片中有停车标志。

人工智能：现在汽车可以识别停车标志，下一步它需要决定何时刹车。太早或太晚刹车都十分危险，我们要让汽车能处理不同的道路状况（例如，识别汽车没有及时减速的易滑道路），这是一个控制理论问题。

数据科学：在道路测试中，我们发现汽车的表现不够好，出现了一些漏识别的情况——在遇到停车标志时没有停车。在分析了道路测试数据之后，我们发现汽车漏识别的概率取决于一天当中的时段：汽车在日出之前和日出之后错过停车标志的概率更高。我们意识到，我们使用的大部分数据只包括大白天当中的目标。为此，我们构建了一个包含夜晚图像的数据集，重新完成机器学习步骤。

结语

人们常常将AI与通用AI混为一谈，后者可以执行不同领域的任务，甚至是超越人类智能的超智能AI。这样做会让人们对被称为是“AI”的系统产生不实际的预期。

文中提到的“自动程序”是指可以翻译自然语言并用自然语言回应的系统。这种系统和文本挖掘不同，后者的目标是得出结论（数据科学），或通过分类文本来分类文件（机器学习）。

作者 | David Robinson

原文链接 | http://varianceexplained.org/r/ds-ml-ai/

数据科学机器学习：2017年的主要发展和2018年的关键趋势

CDA数据分析师

作者 Gregory Piatetsky

编译 Mika
本文为 CDA 数据分析师原创作品，转载需授权

KDnuggets邀请了数据科学相关领域杰出的代表人物对2017年的主要发展和2018年的趋势进行了总结和预测。主要内容涉及到 AI 、深度学习、机器学习、安全、AlphaGo Zero等等。

Kirk D. Borne

BoozAllen的首席数据科学家，天体物理学博士。数据科学和大数据领域的影响者。

回顾 2017

在2017年，技术成熟度曲线(Technology Hype Cycle)的中心位置由原来的大数据渐渐被 AI 取代。媒体和从业者对 AI 的关注在正面新闻，比如越来越强大的机器学习算法和 AI 在汽车、医疗影像、金融服务等行业的应用；以及负面新闻，关于机器将抢走人类工作的威胁。

我们还见证了数据方面创新的发展，包括更多地使用API，即服务提供、数据科学平台、深度学习，以及云机器学习服务。大数据、机器学习和 AI 的专业应用，包括机器智能、规范性分析、行为分析和物联网。

展望 2018

在2018年，我们还需要关注 AI 的其他方面。比如 AI 的价值，衡量它的投资回报率，让其可以实际操作。

主要的发展领域与2017年没有太大差别，主要包括过程自动化、机器智能、客户服务。我们还将见证物联网的日益成熟，包括更强大的安全特性、模块化平台、传感器数据流的AP等。在2018年，更多的从业人员将面对挑战，向持怀疑态度的公众传达 AI 的好处。

Tom Davenport

巴布森学院信息技术与管理专业的杰出教授，国际分析研究所联合创始人，麻省理工学院数字经济学的研究员，德勤分析的高级顾问。

回顾 2017

企业 AI 成为主流，许多大型的知名公司正在进行 AI 或机器学习。一些公司拥有超过50个用到各种技术的项目。大型供应商开始转为开源、自己动手的项目类型。当然，这意味着公司必须提高其数据科学技能。

机器学习应用到数据集成，数据分析和数据管理中之前存在的挑战现在能通过机器学习解决。通过劳动密集型方法对数据进行集成和管理正在被替换，至少是通过不同数据库中相似数据元素的“概率匹配”来实现的。这能够减少整合数据的时间。

开放源代码的企业接受开源，传统的银行、保险和医疗等行业，正在积极地接受开源分析、 AI 和数据管理软件。

展望 2018

我们已经进入了“后算法”时代。之前分析师和数据科学家需要一定的知识来确定使用哪种算法。但是，分析和机器学习过程的自动化能够思考100种以上的不同算法。重要的是模型的效果和整体表现。

独立的 AI 创业公司的吸引力开始减弱。在风险投资基金的推动下，过去几年中成立了数百家 AI 创业公司。当中大多数解决的是较小的问题。然而，即使能够有效地运作，能够与现有流程和系统集成是其主要挑战。因此，成熟的企业更倾向于开发自己的 AI “微服务”，这些服务相对更容易集成，或者从那些将 AI 嵌入到交易系统的供应商购买。

Jill Dyche

SAS Best Practice的副总裁，畅销商业书籍的作者。

回顾 2017

如今几乎每个人都会应用到 AI 和机器学习。2017年，许多供应商都在开发自己的 AI 产品。

展望 2018

在2018年，商业对话和案例中，AI/ML方面会显著增长。这是因为企业有许多业务问题需要解决，管理者不关心神经网络是否要处理稀疏的数据；对自然语言处理中的词汇推理挑战。相反，他们想要加速供应链，知道客户下一步想做什么，然后简单地告诉电脑他们想要什么。这是一种规范性分析，那些能够以简便的方式解决该问题的供应商能够笑到最后。

Carla Gentry

Analytical Solution的数据科学家

回顾 2017

2017年，每个人都开始讨论机器学习、AI 和预测分析。但实际上许多这些公司，供应商只是热衷于这些热词，而并没有他们宣称的相关背景。在这些领域的经验需要时间和才干，而不仅仅是盲目的呼吁行动。总之，经验才是最重要的!

展望 2018

2018年，我们需要关注数据科学和预测分析的领导者。不是因为这很热门，而是因为这能给你的企业带来巨大的变化。

对招聘进行预测可以节省数百万人的成本；AI 和机器学习可以在几秒钟内完成你需要几天去做的事情。技术可以把我们提升到新的高度，但作为数据科学家，需要通过法律和社会的基本道德。

Bob E. Hayes

研究人员，作家，Business Over Broadway的出版商，组织心理学博士。

回顾 2017

数据科学和机器学习越来越多地应用于各种行业和领域。在2017年，我们目睹了 AI 的巨大进步。虽然之前深度学习模型需要大量的数据教算法，但是神经网络和强化学习表明，创建高性能的算法时并不需要数据集。DeepMind采用了这些技术，开发了Alpha Go Zero，这更优于之前版本的算法。

展望 2018

随着 AI 在刑事司法、金融、教育等领域的持续发展，我们将需要建立算法标准，用来评估其不准确性和偏差。包括建立 AI 的使用规则(例如，避免决策中的暗箱操作)，并理解深度学习算法如何做出决定。

数据中心的安全漏洞将继续攀升，即使互联网时代出现的公司(例如imgur, Uber)。因此，我们将看到安全措施方面的改革的，将增加区块链的可见性作为一种可行的方式，用来改善公司如何获得其选区的数据。

Gregory Piatetsky-Shapiro

KDnuggets总裁，数据科学家，KDD和SIGKDD会议(知识发现和数据挖掘专业组织)的联合创始人。

回顾 2017

· AlphaGo Zero可能是2017年 AI 最重要的研究进展。

· 数据科学方面自动化的增长，提供了更多提供自动化工具的机器学习平台。

· AI 的舆论热度和期望的增长甚至比 AI 和深度学习的发展还快。

展望 2018

· GDPR(欧洲通用数据保护条例)将在2018年5月25日生效，这将对数据科学产生重大影响，其中包括解释的权利(你的深度学习方法是否可以解释为什么某人被拒绝贷款等)，以及防止偏见和歧视。

· 谷歌 DeepMind 团队将跟进AlphaGo Zero的惊人结果，并实现另一个强大的性能。在几年前，许多人认为这是计算机无法做到的。

(注: DeepMind 取得的另一个突破进展发生在2017年12月，AlphaZero在4个小时内就能熟练掌握国际象棋，同样的自我博弈学习程序可以在国际象棋、围棋和日本将棋方面达到超人般的表现。)

· 我们将会看到更多的自动驾驶汽车的发展，包括首次出现的问题正在被解决(比如拉斯维加斯的无人驾驶飞机，一开始不知道如何让道，但之后能够让道)。

· AI 的泡沫将继续存在，但我们将看到重组和整合的迹象。

Paul Gearan，Heather Allen，Karl Rexer

Rexer Analytics的负责人，Rexer Analytics是一家数据挖掘和高级分析咨询公司。

回顾 2017

对于没有研究或分析背景的人群，使用商业智能软件仍然面临许多障碍。当然出现了Tableau、IBM Watson、Microsoft Power BI等软件。然而，根据Rexer Analytics在2017年收集的数据，只有近一半的受访者表示，除了数据科学团队，他们公司其他员工也有使用相关自助工具。工具使用时，常见的问题有难以理解分析过程以及对分析结果的误解。

展望 2018

对于2018年，实现推广数据科学工具的目标是扩大分析的使用范围，从而得出有效的结果，这是至关重要的。通常情况下，向非数据分析方面的员工和管理人员提供工具，让他们对自己的假设进行探索和可视化是很重要的。但同样重要的是，团队要与数据科学专业人员一起开发模型并解读得出的见解，这些专业人员经过培训，能够掌握特定分析技术的应用。

原文链接：

https://www.kdnuggets.com/2017/12/data-science-machine-learning-main-developments-trends.html

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

【人工智能】数据科学、机器学习和人工智能：没有多大交集，区别是什么，2017年发展和2018年趋势又是如何？

数据科学 机器学习：2017年的主要发展和2018年的关键趋势

数据科学机器学习：2017年的主要发展和2018年的关键趋势