深度学习:智能时代的核心驱动力量

内容简介

enter image description here

科技巨头纷纷拥抱学习,自动驾驶、AI、语音识别、图像识别、智能翻译以及震惊世界的 AlphaGo,背后都是学习在发挥的作用。学习是人工智能从概念到繁荣得以实现的主流技术。经过学习训练的计算机,不再被动按照指令运转,而是像自然进化的生命那样,开始自主地从经验中学习。

本书作者特伦斯 · 谢诺夫斯基是人工智能十大科学家之一、学习先驱及奠基者,亲历了学习在 20 世纪 70 年代到 90 年代的寒冬。但他和一众开拓者,利用大数据和不断增强的计算能力,终于在神经网络算法上取得重大突破,实现了人工智能井喷式的发展。

作为学习领域的通识作品,本书以恢弘的笔触,通过 3 个部分全景展现了学习的发展、演变与应用,以亲历者视角回溯了学习浪潮在过去 60 年间的发展脉络与人工智能的螺旋上升,并前瞻性地预测了智能时代的商业图景。


名人推荐

特伦斯是一名杰出的神经科学家,我们于 1986 年共同发明了玻尔兹曼机。

——AI 教父 杰弗里 · 辛顿

人工智能是科技王冠上的钻石,而学习代表了其中一个承上启下的重要阶段。这本书有助于在我们心目中更加清晰准确地绘制人工智能的未来图景。你可以从本书中了解到那些令人惊讶,甚至于有些担忧的科技进展,大致了解它们背后的原理。这展现了人工智能相对于人类而言的单方面优势。你也能看到许多真实事例,反映了人工智能相对于人类而言的“笨拙”。在现实中,这种“笨拙”的情况往往更加普遍。这些事例有时令人忍俊不禁,它恰恰体现了我们人类的大脑是多么精妙的设计。

——微软小冰之父、微软(亚洲)互联网工程院副院长 李笛

特伦斯 · 谢诺夫斯基作为学习领域的先驱,带领该领域由理论命题走向实证科学。这是一大飞跃。

——诺贝尔生理学或医学奖得主 埃里克 · 坎德尔

作为学习领域的亲历者,以及学习灵魂人物的同行者,谢诺夫斯基分享了这一技术发展过程中的洞见和轶事。这本书记录了人工智能这场狂飙运动,字里行间都能感受到作者的兴奋和投入。

——互联网之父、谷歌副总裁 文顿 · 瑟夫

人工智能正在觉醒,世界正在被。学习正是这一变化背后的驱动力。特伦斯 · 谢诺夫斯基扎根该领域研究 30 年,是的先驱。如果你想了解人工智能,必读此书。

——麻省理工学院斯隆商学院 埃里克 · 布林约尔夫松


作者简介

特伦斯 · 谢诺夫斯基 Terrence (Terry) Sejnowski

世界十大 AI 科学家之一,美国四大国家学院(国家科学院、国家医学院、国家工程院、国家艺术与科学学院)在世仅 3 位的“四院院士”之一,AI 会议 NIPS 基金会主席。

作为神经网络的先驱,早在 1986 年,特伦斯就与杰弗里 · 辛顿共同发明了玻尔兹曼机,把神经网络带入到研究与应用的热潮,将学习从边缘课题变成了互联网科技公司仰赖的核心技术,实现了人工智能井喷式的发展。

特伦斯现任美国索尔克生物研究所(美国生命科学领域成果多的研究机构) 计算神经生物学实验室主任,是美国政府注资 50 亿美元“脑计划”项目(BRAIN,the Brain Research through Advancing Innovative Neurotechnologies)领军人物。

特伦斯同时是大在线学台 Coursera 受欢迎课程《学习如何学习》(Learning how to learn)主理人,通过讲解大脑认知的底层知识,让学习者可以改变思维模式,提高学习的能力和效率。目前该课程学习人数已经超过了 300 万。

本书内容

推荐序 面对科技拐点,我们的判断与选择

李笛

微软小冰之父

微软(亚洲)互联网工程院副院长

在近年来陆续出版的、解读人工智能技术与趋势的许多书籍中,这是一本不可多得的好书。它的阅读过程令人愉悦,涉及的知识深度又比较恰当。因此,即使是不具备相关领域知识背景的读者,也能够轻松地读完它。人们完全可以利用“碎片时间”来研读这本 30 多万字的大作,从而集中了解到与人工智能相关的技术分支、组织人物与重要事件。在人工智能热度很高的当下,这本书的价值在于,帮助读者建立一种相对贴近事实的科学观。

读者可以把这本书当作一本有关人工智能的简明历史来看待。人工智能是科技王冠上的钻石,而深度学习代表了其中一个承上启下的重要阶段。深度学习脱胎于科学家们六十多年前开始的人工智能研究,其自身的概念形成,到落地开花,则只有十多年的光景。与过去相比,深度学习极大地推进了人工智能各个分支课题的发展速度;与未来相比,我们今天所取得的一切成果,都是非常粗糙的,注定会被更好的成果取代。因此,了解深度学习,就如同站在一个关键的节点上向时间河流的上下游看,一览无余。

我相信,不同的人会从这本书中得到不同的收获。总体而言,这本书有助于在我们心目中更加清晰准确地绘制人工智能的未来图景。从某种意义上说,所有的过去亦都昭示了未来,但我更建议读者以最轻松的心态来阅读它。因为这样,能够让读者以更加客观公正的视角去检阅人类与机器的能力短板与优长——你可以从本书中了解到那些令人惊讶,甚至于有些担忧的科技进展,大致了解它们背后的原理。这展现了人工智能相对于人类而言的单方面优势。另一方面,你也能看到许多真实事例,反映了人工智能相对于人类而言的“笨拙”。科学与科学幻想泾渭分明。在现实中,这种“笨拙”的情况往往更加普遍。这些事例有时令人忍俊不禁,它恰恰体现了我们人类的大脑是多么精妙的设计。

事实上,在我看来,当下最令人彷徨不定的,并不是人工智能有多么“强大”或有多么“笨拙”,而是我们已处在一个科技的拐点,需要由我们每个人对未来的走向做出抉择。这是一个非常具有现实意义的话题。虽然深度学习是这个拐点的主要推动力之一,但它并不需要为我们的困扰承担责任:

  • 选择权的困扰:一辆无人驾驶汽车行驶在道路上,假设突然面临必然要发生的车祸,它应当向左撞向一个无辜的老人,还是向右撞向一个无辜的壮年?

  • 决策权的困扰:一个系统可以基于人类个体不具备的广泛即时的大数据,用任何人无法企及的速度,迅速做出某个决策。这样的洞察和决策力,应该掌握在谁的手中?

  • 工作权的困扰:一项基于人工智能的技术可以比人类以更好的质量和速度去完成某项生产。这项技术应该归属于工厂主来代替工人,还是应该归属于工人来帮助工厂主更好地完成工作?前者会带来失业,而后者有望带来更高的工作效率。

  • 社会层面的困扰:一个面向情感的人工智能机器人帮助一个人解决孤单,却使他主动减少了与他人的社交沟通。这种陪伴究竟是在帮他解决问题,还是制造了更多的问题?

  • 技术滥用的困扰:一项技术可以帮助任何人打造与他们高度相似的语音,制造出来的声音,令他的家人也难辨真假。这样的技术会不会被别有用心的人用于犯罪,例如诈骗电话?

不知不觉间,这些看似遥远的事,突然间已变成我们必须要面对的现实情况,而我们也已经在上述一些场景中做出了初步的抉择。其中一个关键因素是,人们常常对人工智能的“智商”印象深刻,但往往忽略了:人工智能系统化的优势之一在于“大规模的并发”。因此,任何一种以上技术应用的场景,只要乘以巨大的人口,都会带来很大的影响。相对而言,在围棋游戏中赢过人类,其实是最不需要担忧的了。

在微软,我们最近成立了与人工智能及伦理相关的组织,力图在当前的框架内去发现尽量多的问题,尽可能在早期就避免问题的发生。微软在人工智能领域的技术和产品线很广泛,因此我们做过的抉择也相对较多。这些抉择往往决定了我们在有能力的情况下,主动放弃去做什么。

这意味着克制与敬畏之心。例如:微软小冰在两年前推出拟人的全双工语音电话技术(Full Duplex)时,我们就制定了该产品的伦理规则,不允许在用户不知情的情况下,让小冰伪装成真人去拨打电话。我们也不使用微软小冰的技术去从事呼叫中心的外呼业务,因为它存在被滥用为垃圾广告电话的风险——尽管这些往往意味着巨大的商业价值。今天,在中国、美国、日本、印度和印度尼西亚,微软小冰拥有近7亿人类用户,如果她在对话的时候努力诱导人们去购买某种商品,显然会带来可观的收入预期。但谁会愿意和一个一心想着如何诱导你买东西的人成为知己呢?

这种克制,不仅仅是一两家企业的责任。它依赖于整个社会对人工智能,特别是深度学习相关技术的了解。对技术的了解越普遍,也就越能帮助企业更好地运用手中的技术,进而帮助我们每一个人获得更好的生活,享受人工智能为我们带来的价值。

在我看来,这就是这本书所具有的现实意义。它并非教科书,而是一本面向未来的历史书。它揭示了人工智能有望给世界、给人类带来的巨大改变,远超我们现在所能想象到的全双工语音、人脸识别、情感计算甚至是自动驾驶。换句话说,基于我们现在的技术和产品水平,相信许多人已能在脑海中比较清晰地勾勒出,自己在马路上与一辆并没有司机驾驶的汽车相遇的场景。但与人工智能即将展现的伟大图景相比,这些都不值一提。

中文版序 人工智能会放大认知能力

60 年前,数字计算机在人工智能(AI)的萌芽期问世,深度学习革命的种子也在那时被播种开来。深度学习是数据密集型的,通过实例来学习如何解决难题,比如视觉对象识别、语音识别和自然语言翻译等。人类从婴儿时期睁开眼睛的那个时刻起,就开始从经验中学习,到后来获得语言、运动、玩电子游戏等最高程度的能力;相比之下,传统的劳动密集型人工智能方法是基于编写不同的复杂计算机程序来解决每个问题。

本书讲述了 20 世纪 80 年代一小群研究人员的故事,他们证明了基于大脑式计算的全新方法是可行的,从而为深度学习的发展奠定了基础。

当时已有的人工智能学术研究中心都投注于编程,并且都具有强大的实力,但却无法解决上述任何难题。又过了 30 年,计算机才变得足够快,也出现了大量可供利用的数据。这一变化让深度学习得以克服这些难题,并在今天的人工智能领域占据主导地位。其他领域同样可以借鉴这一经验教训,例如语言学,曾经普遍持有的既定信念阻碍了该领域整整一代研究者的进步。深度学习改变了语言学,使其发展基于来自现实世界的数据,而非无法捕捉这些复杂性的理想世界的数据。

回溯历史,人工智能诞生的秘密可以在自然界中找到答案,我们对此并不应该感到惊讶。大自然有数亿年的时间通过进化找到解决方案,对这些解决方案进行逆向工程能够让我们受益匪浅。了解大脑如何运转是 21 世纪最大的挑战之一。大自然发明了许多经受住了时间考验的算法。理解这一挑战并投资于大脑研究的国家将获得巨大的回报,远远超出 20 世纪物理学和化学研究的突破所产生的影响,这些影响已经极大地丰富了我们的生活。美国已经为“BRAIN 计划”(英文全称为 Brain Research through Advancing Innovative Neurotechnologies,即“通过推动创新型神经技术开展大脑研究计划”)注资 50 亿美元,欧洲、日本和许多其他国家或地区也在进行类似的投资。中国正在投资当前的人工智能技术,但它是否拥有投资大脑研究的远见,年青一代又是否会接受这一挑战呢?

深度学习对社会和个人生活将产生深远的影响,其影响方式也是难以想象的。在本书中,我提出了一个观点,即你无须担心人工智能将接管你的工作。人工智能会让你更聪明,让你所能实现的成就达到新的高度。就像工业革命时期蒸汽机放大了物理能力一样,人工智能也会放大认知能力。我们刚刚步入一个新的时代——信息时代。我们进入的新世界不仅会使我们变得更聪明,还会让我们更清楚地认识自己,从而回答古代的哲学先驱们最早提出的一系列问题。对于自身,我们又会得出哪些深刻的见解呢?

前言 深度学习与智能的本质

如果你在连接了互联网的安卓手机或谷歌翻译平台上使用语音识别功能,你其实是在与经过深度学习训练的神经网络[1]进行交流。过去几年,深度学习为谷歌带来了丰厚的利润,足以支付 Google X 实验室中所有未来主义项目的成本,包括自动驾驶汽车、谷歌眼镜和谷歌大脑。[2]谷歌是最早拥抱深度学习的互联网公司之一,并在 2013 年聘请了深度学习之父杰弗里 · 辛顿(Geoffrey Hinton),其他公司也在竞相追赶它的脚步。

人工智能近期取得的进展得益于大脑逆向工程。分层神经网络模型的学习算法受到了神经元之间交流方式的启发,并依据经验进行了改进。在网络内部,世界的复杂性转变为五彩缤纷的内部活动模式,这些模式是智能的元素。我在 20 世纪 80 年代研究的网络模型很小,相比之下,现在的模型有数百万个人造神经元,深度达到了几十层。持久的努力、大数据和更强大的计算机运算能力使得深度学习在人工智能领域一些最困难的问题上取得了重大突破。

我们并不善于想象新技术对未来的影响。谁能在 1990 年互联网刚开始商业化的过程中预见到它对音乐产业的影响,以及对出租车业务、政治运动,还有我们日常生活几乎所有方面的影响?同样,我们也未能预见到电脑会如何改变我们的生活。IBM(国际商业机器公司)总裁托马斯 · 沃森(Thomas J. Watson)在 1943 年说的一句话后来被广泛引用:“我觉得全世界也许能卖出 5 台计算机吧。”[3]很难想象一个新发明都有哪些用途,其发明人对这些用途的预测也不见得比其他人更准确。在乌托邦和世界末日的两极之间,有很多关于深度学习和人工智能应用场景的预测空间,但即使是最具想象力的科幻小说作家也不大可能猜出它们最终会产生什么样的影响。

本书的初稿是我在太平洋西北地区[4]徒步旅行,并思索了近几十年来人工智能领域的显著变化之后写出来的。这本书讲了一个一小群研究人员挑战 AI 研究建制派的故事,这些建制派在当时拥有更充足的资金支持,并被看作“唯一的主导力量”,他们大大低估了这些问题的难度,并且所依赖的对智能的直觉,后来被证明是有误导性的。

地球上的生命充满了无数奥秘,但最具挑战性的也许是智能的本质。自然界充斥着各种形式的智能,从微小的细菌到复杂的人类智能,每种智能都适应了它在自然界中的位置。人工智能也将以多种形式出现,并在智能族谱中占据特殊的位置。随着基于深度神经网络的机器智能日渐成熟,它可以为生物智能提供一个新的概念框架。

这是一本关于深度学习的过去、现在和未来的指南。不过本书并不是对该领域发展历史的全面梳理,而是记录了这一领域重要概念的进步及其背后研究群体的个人观点。人类的记忆并不可靠,对故事的每次复述都会导致记忆的偏差,这个过程叫作“重整记忆”。这本书中的故事延续了 40 多年,尽管有些对我来说依然历历在目,就像昨天刚发生的一样,但我很清楚,那些故事在我的记忆中不断被复述时,有些细节已经悄悄地被改写了。

本书的第一部分提供了深度学习的动机和理解其起源所需的背景信息;第二部分解释了几种不同类型的神经网络架构中的学习算法;第三部分则探讨了深度学习对我们当下生活产生的影响,以及未来若干年可能产生的影响。然而,正如纽约扬基队的哲人尤吉 · 贝拉(Yogi Berra)曾经说过的那样:“做出预测很难,特别是对未来的预测。”本书前八章的内容交代了故事的技术背景;三个部分开头的要事年表记录了与这个故事有关的事件,时间跨度超过了 60 年。


[1] 严格地说,神经网络是一个生物实体,机器学习中使用的模型是人工神经网络——ANNies。但若无另行说明,本书中的“神经网络”默认代指人工神经网络。

[2] Conor Dougherty, “Astro Teller, Google’s ‘Captain of Moonshots,’ on Making Profits at Google X,” New York Times, February 6, 2015, https://bits.blogs.nytimes.com/2015/02/16/googles-captain-of-moonshots-on-making-profits-at-google-x. 深度学习将运行数据中心的电力成本降低了 15%,每年可以节省数亿美元。

[3] 尽管沃森在 1943 做出的估计从未得到过确认,但它反映了当时的人们普遍无法想象电脑的未来。

[4] 太平洋西北地区是指美国西北部地区和加拿大的西南部地区。——编者注

要事年表

1956 年

达特茅斯人工智能夏季研究计划(The Dartmouth Artificial Intelligence Summer Research Project)开启了人工智能领域的研究,并鼓舞了一代科学家探寻可以媲美人类智慧的信息技术的潜力。

1962 年

弗兰克 · 罗森布拉特(Frank Rosenblatt)出版了《神经动力学原理:感知器和大脑机制的理论》(Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms),该书介绍了一种应用于具有单层可变权重的神经网络模型的学习算法,该算法是今天的深度神经网络模型的学习算法的前身。

1962 年

大卫 · 休伯尔(David Hubel)和托斯坦 · 威泽尔(Torsten Wiesel)发表了《猫的视觉皮质中的感受野、双目互动和功能架构》(Receptive Fields,Binocular Interaction and Functional Architecture in the Cat’s Visual Cortex)一文,第一次报道了由微电极记录的单个神经元的响应特性。深度学习网络的架构类似于视觉皮质的层次结构。

1969 年

马文 · 明斯基(Marvin Minsky)和西摩尔 · 帕普特(Seymour Papert)出版了《感知器》(Perceptrons),该书指出了单个人造神经元的计算极限,标志着神经网络领域寒冬的到来。

1979 年

杰弗里 · 辛顿和詹姆斯 · 安德森(James Anderson)在加州拉荷亚市(La Jolla)举办了“关联记忆的并行模型”(Parallel Models of Associative Memory)研讨会,把新一代的神经网络先驱们聚集到了一起,同时也推动辛顿和安德森在 1981 年发表了同名系列研究著作。

1986 年

第一届神经信息处理系统大会(Neural Information Processing Systems, 以下统称 NIPS[1])及研讨会在美国丹佛科技中心举办,该会议吸引了很多不同领域的研究人员。


[1] NIPS 现通称为 NeurIPS。——译者注

01 机器学习的崛起

不久之前,人们还常说,计算机视觉的辨别能力尚不如一岁大的孩子。如今看来,这句话要改写了。计算机不仅能和大多数成年人一样识别图片中的物体,在马路上驾驶汽车的安全性还高过 16 岁的青少年。更神奇的是,如今的计算机不再是被动按照指令识别和驾驶,而是像自然界的生命由数百万年前开始进化那样,自主地从经验中学习。是数据的井喷促成了这一技术进步。如果说数据是新时代的石油,那么学习算法就是从中提取信息的炼油厂;信息积累成知识;知识深化成理解;理解演变为智慧。欢迎来到深度学习的新世界。[1]

深度学习是机器学习的一个分支,它根植于数学、计算机科学和神经科学。深度网络从数据中学习,就像婴儿了解周围世界那样,从睁开眼睛开始,慢慢获得驾驭新环境所需的技能。深度学习的起源可以追溯到 20 世纪 50 年代人工智能的诞生。关于如何构建人工智能,当时存在两种不同的观点:一种观点主张基于逻辑和计算机程序,曾主宰人工智能的研究和应用数十年;另一种观点则主张直接从数据中学习,经历了更长时间的摸索才逐渐成熟。

20 世纪,计算机技术还不够成熟,而且按照现在的标准,数据存储成本十分高昂,用逻辑程序来解决问题更加高效。熟练的程序员需要为每个不同的问题编写不同的程序,问题越大,相应的程序也就越复杂。如今,计算机能力日趋强大,数据资源也变得庞大且丰富,使用学习算法解决问题比以前更快、更准确,也更高效。此外,同样的学习算法还能用来解决许多不同的难题,这远比为每个问题编写不同的程序更加节省人力。

汽车新生态:无人驾驶将全面走入人们生活

在 2005 年美国国防部高级研究计划局(以下简称 DARPA)举办的自动驾驶挑战赛中,一辆由斯坦福大学塞巴斯蒂安 · 特隆(Sebastian Thrun)实验室开发的自动驾驶汽车 Stanley 最终赢得了 200 万美元现金大奖(见图 1–1)。团队利用了机器学习技术教它如何自主地在加利福尼亚州的沙漠中穿行。132 英里的赛道中有若干狭窄的隧道和急转弯,还包括啤酒瓶道(Beer Bottle Pass),这是一段蜿蜒曲折的山路,两侧分别是碎石遍布的陡坡和断壁(见图 1–2)。特隆并没有遵循传统的 AI 方法,即通过编写计算机程序来应付各种偶发事件,而是在沙漠中驾驶 Stanley,让汽车根据视觉和距离传感器的感应输入,学习如何像人一样驾驶。

图 1-1 塞巴斯蒂安 · 特隆及其团队的自动驾驶汽车 Stanley 在 2005 年赢得了 DARPA 举办的自动驾驶挑战赛。这项突破引发了交通界的技术革命。图片来源:塞巴斯蒂安 · 特隆。

图 1-2 啤酒瓶道。这段极具挑战性的地形位于 2005 年 DARPA 自动驾驶挑战赛的末段。该赛事要求汽车在无人辅助的情况下驶过 132 英里的沙漠荒路。图中远处的一辆卡车正要爬坡。图片来源:DARPA。

特隆后来参与创立了高科技项目重点实验室 Google X,并开始了进一步研究自动驾驶汽车技术的计划。谷歌的自动驾驶汽车自此开始,在旧金山湾区累积了 350 万英里的车程。优步(Uber)已经在匹兹堡投放了一批自动驾驶汽车。苹果也步入自动驾驶领域,以扩大其操作系统控制的产品范围,并希望能够再现它在手机市场上的辉煌。汽车制造商们亲眼看见一个 100 年来从未改变的行业在他们眼前发生了转型,也开始奋起直追。通用汽车公司以 10 亿美元的价格并购了开发无人驾驶技术的硅谷创业公司 Cruise Automation,并在 2017 年投入了额外的 6 亿美元用于研发。[2]2017 年,英特尔以 153 亿美元的价格收购了 Mobileye,它是一家专门为自动驾驶汽车研发传感器和计算机视觉的公司。在价值数万亿美元的交通运输领域,参与的各方都下了极高的赌注。

自动驾驶汽车不久将扰乱数百万卡车司机和出租车司机的生计。最终,如果一辆自动驾驶汽车能够在一分钟内出现,将你安全带到目的地且无须停车,在城市拥有汽车就显得不那么必要了。今天,汽车行驶时间平均仅占 4%,这意味着它其余 96% 的时间都需要停放在某个地方。由于自动驾驶汽车可以在城市外围维修和停放,城市中被大量停车场占用的空间得以被重新高效利用。城市规划者已经开始考虑让停车场变成公园了。[3]街边的停车道可以成为真正的自行车道。其他汽车相关行业也将受到影响,包括汽车保险业和修理厂。超速和停车罚单将不复存在。由醉驾和疲劳驾驶导致的交通事故死亡人数也会相应减少。通勤浪费的时间也将被节省下来做其他事情。根据 2014 年的美国人口普查数据,1.39 亿上班族人均单日通勤时间达到了 52 分钟,全年总计 296 亿小时。这惊人的 340 万年的时间本可以在人生中得到更好的利用。[4]自动驾驶汽车会使公路通行能力翻两番。[5]而且,一旦大规模投入使用,没有方向盘、可以自己开回家的自动驾驶汽车还会让大规模汽车盗窃行为销声匿迹。虽然目前自动驾驶汽车仍面临很多监管和法律层面的障碍,但这一技术一旦开始普及,我们就将迎来一个崭新的世界。可以预见的是,卡车大概会在 10 年内率先实现自动驾驶,出租车要花上 15 年,而 15 到 25 年后,客运无人车将全面走入人们的生活。

汽车在人类社会中的标志性地位将以我们无法想象的方式发生变化,一种新的汽车生态也将应运而生。正如 100 多年前汽车的出现创造了许多新的行业和就业机会,围绕着自动驾驶汽车的发展,也出现了一个快速增长的生态系统。从谷歌独立出来的自动驾驶公司 Waymo,8 年来已经投入了 10 亿美元,并在加州中部山谷搭建了一个秘密测试场所。该场所位于一个占地 91 英亩的仿造小镇,其中还设计了骑自行车的“演员”和假的汽车事故。[6]其目的是扩大训练数据集以包含特殊和不常见的情况(也叫边缘情况)。公路上罕见的驾驶事件经常会导致事故。自动驾驶汽车的不同之处就在于,当一辆汽车遇到罕见事件时,相应的学习体验会被传递给所有其他自动驾驶汽车,这是一种集体智能。其他自动驾驶汽车公司也在建造许多类似的测试设施。这些举措创造了以前并不存在的新工作机会,以及用于汽车导航的传感器和激光器的新供应链。[7]

自动驾驶汽车仅是信息技术推动经济发生重大转变的一个最明显的体现。网络上的信息流就像城市管道里的水流。信息在谷歌、亚马逊、微软和其他 IT 公司的大型数据中心聚集。这些数据中心需要耗费大量电力,因此通常建在水电站附近,并利用河水来冷却信息流所产生的大量热量。2013 年,美国的数据中心消耗了 1000 万兆瓦的电量,相当于 34 个大型电厂产生的电力。[8]但是目前对经济影响更大的是如何使用这些信息。从原始数据中提取出的信息被转化为关于人和事的知识:我们做什么,我们想要什么,我们是谁。计算机驱动的设备也在越来越多地利用这些知识与我们进行口头上的交流。与大脑之外、书本之中的被动知识不同,储存在云中的知识是一种外部智能,并且正在成为人们生活中积极、活跃的一部分。[9]

自然语言翻译:从语言到句子的飞跃

如今,谷歌在超过 100 种服务中使用了深度学习,包括街景视图(Street View)、收件箱智能回复(Inbox Smart Reply)和语音搜索。几年前,谷歌的工程师意识到他们需要将这些计算密集型应用扩展到云端。他们开始着手设计一种用于深度学习的专用芯片,并巧妙地设计了可以插入数据中心机架中的硬盘插槽的电路板。谷歌的张量处理单元(TPU)现在已配置在遍布全球的服务器上,让深度学习应用程序的性能得到了大幅改进。

深度学习快速改变格局的一个例子是它对语言翻译的影响。语言翻译是人工智能的一只圣杯,因为它依赖于理解句子的能力。谷歌最近推出了基于深度学习的最新版谷歌翻译(Google Translate),代表了自然语言翻译质量的重大飞跃。几乎一夜之间,语言翻译就从零散杂乱的拼凑短语,升级到了语意完整的句子(见图 1–3)。之前的计算机方法搜索的是可以被一并翻译的词汇组合,但深度学习会在整个句子中寻找词汇之间的依赖关系。

图 1-3 手机上的谷歌翻译应用可以将日语文字和菜单即时译成英文。这一功能对于在日本如何按照指示牌乘车尤为重要。

得知谷歌翻译获得了巨大进步的消息后,2016 年 11 月 18 日,东京大学的暦本纯一(Jun Rekimoto)测试了这个新系统。他把欧内斯特 · 海明威的小说《乞力马扎罗的雪》开头的一段话翻译成了日文,然后再把这段日文翻译成英文,结果如下(猜猜哪个是海明威的原作):

1. Kilimanjaro is a snow-covered mountain 19,710 feet high,and is said to be the highest mountain in Africa. Its western summit is called the Masai “Ngaje Ngai,” the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.[10]

2. Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called “Ngaje Ngai” in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.[11][12]

海明威的原作是第一段。

下一步工作是训练更大规模的深度学习网络,针对段落来提高句子间的连贯性。文字背后都有悠久的文化历史。俄裔作家和英文小说家,《洛丽塔》一书的作者弗拉基米尔 · 纳博科夫(Vladimir Nabokov)曾经得出结论,在不同语言之间翻译诗歌是不可能的。他将亚历山大 · 普希金(Aleksandr Pushkin)的诗体小说《叶甫盖尼 · 奥涅金》(Eugene Onegin)直译成了英文,并对这些诗文的文化背景做了解释性脚注,以此论证他的观点。[13]或许谷歌翻译终有一天能够通过整合莎士比亚的所有诗歌来翻译他的作品。[14]

语音识别:实时跨文化交流不再遥远

人工智能的另一只圣杯是语音识别。不久之前,计算机的独立语音识别应用领域还很有限,如机票预订。而如今,限制已不复存在。2012 年,一名来自多伦多大学的实习生在微软研究院(Microsoft Research)的一个夏季研究项目中,让微软的语音识别系统性能得到了显著的提升(图 1–4)。[15]2016 年,微软的一个团队宣布,他们开发的一个拥有 120 层的深度学习网络已经在多人语音识别基准测试中达到了与人类相当的水平。[16]

图 1-4 微软首席研究官里克 · 拉希德(Rick Rashid)在 2012 年 10 月 25 日于中国天津举行的一场活动中,使用深度学习进行了自动语音识别的现场演示。在 2000 名中国观众面前,拉希德说的英文被自动化系统识别,先在他的屏幕图像下方显示出英文字幕,随后被翻译成了中文。此次高难度展示被全球媒体争相报道。图片来源:微软研究院。

这一突破性成果将在之后的几年逐渐影响我们的社会,计算机键盘会被自然语言接口取代。随着数字助手,如亚马逊的 Alexa、苹果的 Siri 以及微软的 Cortana 先后进入千家万户,这种取代已经在发生了。就如随着个人电脑的普及,打字机退出了历史舞台,有一天电脑键盘也将成为博物馆的展品。

当语音识别和语言翻译结合到一起时,实时的跨文化交流将有可能实现。《星际迷航》中那种万能翻译机将触手可及。为什么计算机语音识别和语言翻译达到人类的水平要花这么久的时间?难道计算机的各种认知能力同时进入瓶颈期仅仅是巧合吗?其实所有这些突破都源于大数据的出现。

AI 医疗:医学诊断将更加准确

深入皮肤

随着机器学习的成熟并被应用于可获取大数据的许多其他问题,服务行业和其相关职业也将发生转变。基于数百万患者病情记录的医学诊断将变得更加准确。最近的一项研究将深度学习运用到了囊括超过 2000 种不同疾病的 13 万张皮肤病学图像中,这个医学数据库是以前的 10 倍大(图 1–5)。[17]该研究的网络被训练用于诊断“测试集”(testset,它从未见过的新图像集)中的各种疾病。它在新图像上的诊断表现与 21 位皮肤科专家的结论基本一致,甚至在某些情况下还要更准确。在不久的将来,任何一个拥有智能手机的人都可以拍下疑似皮肤病变的照片,并立即进行诊断——而现在要完成同样的过程,我们需要先去看医生,耐心等待病变被专家筛查出来,然后再支付一大笔账单。这一进步将大大扩大皮肤病护理的范围,提升护理质量。如果个体可以很快得到专家诊断,他们会在皮肤病的早期阶段,也就是更容易治疗的时候就开始就医。借助深度学习,所有的医生都将更准确地诊断罕见的皮肤病。[18]

图 1-5 艺术家绘制的高准确度诊断皮肤病变的深度学习网络图,2017 年 2 月 2 日《自然》杂志封面。

深入癌症

如果专家在转移性乳腺癌的淋巴结活检切片图像上判断错误,就有可能导致致命的后果。这是一种深度学习擅长的模式识别问题。实际上,一个经过大量结论清晰的切片数据训练出来的深度学习网络能达到 0.925 的准确度,还不错,但还不及人类专家在同一测试集上达到的 0.966。[19]然而,把深度学习与人类专家的预测结合起来,准确度达到了 0.995,几近完美。由于深度学习网络和人类专家查看相同的数据的方式不同,二者相结合的效果比单独预测要好。这样一来,更多的生命得以被挽救。这表明在未来,人类与机器将是合作而非竞争的关系。

深入睡眠

如果你有严重的睡眠问题(70% 的人一生中都会遇到这个问题),你要等待几个月才能见到你的医生(除非问题十分紧急),然后你会被转到一个睡眠诊所。在那里,你需要在身上接几十个能在你入睡时记录你的脑电图(EEG)和肌肉活动的电极,接受彻夜观察。每个晚上,你会先进入慢波睡眠,然后定期进入快速眼动(REM)睡眠,在此期间,你会做梦,但是失眠、睡眠呼吸暂停综合征、不宁腿综合征以及许多其他睡眠障碍会干扰这种睡眠模式。如果你在家里就很难入睡,那么在一张陌生的床上,全身接满了让人不安的医疗设备进入睡眠状态,绝对算得上真正的挑战。睡眠专家会查看你的脑电图记录,以 30 秒为单位标记睡眠阶段,一段 8 小时的睡眠要花几个小时才能标记完。而最终你会得到一份有关睡眠模式异常情况的报告,以及一份 2000 美元的账单。

依据 1968 年由安东尼 · 雷希特施芬(Anthony Rechtshaffen)和艾伦 · 卡莱斯(Alan Kales)设计的系统,睡眠专家将接受寻找表征不同睡眠阶段特征迹象的培训。[20]但是由于这些特征常常不明确,也不一致,只有 75% 的情况下专家们能在数据解读上达成一致。相比之下,我实验室之前的一名研究生菲利普 · 洛(Philip Low)使用无监督机器学习,花了不到一分钟的计算机运算时间,以 3 秒的时间分辨率自动检测睡眠阶段,和 87% 的人类专家达成了一致的结论。此外,这种方式只需要在头部的单个位置做记录,用不到那些触点和接线,也节省了大量佩戴和摘除的时间。2007 年,我们创立了一家公司 Neurovigil,想将这项技术引入睡眠诊所,但诊所对此没有表现出多大兴趣,因为靠人力标注能产生更多的现金流。实际上,依据保险号向患者开具账单,会让诊所没有动机采用更廉价的程序。Neurovigil 在大型制药公司发现了另一个市场,这些公司在开展临床试验,需要测试他们的药物对睡眠模式的影响。这项技术目前正在进入长期护理设施市场,帮助解决在老年人中更普遍的进行性睡眠问题。

睡眠诊所模式是存在缺陷的,因为在这样的限制条件下不能可靠地诊断出健康问题:每个人的生理基数都不同,而偏离这个基数的信息最重要。Neurovigil 已经有了一个小型设备 iBrain,它可以在家里记录你的脑电图信息,将数据传到网上并分析数据的长期趋势和异常情况。这可以帮助医生及早发现健康问题,在恶化前及时干预并阻止慢性疾病的发展。其他很多疾病的治疗也将受益于持续监测,如 1 型糖尿病,血糖水平可以被监测并通过胰岛素进行调节。使用能够连续记录数据的廉价传感器正在对其他慢性疾病的诊断和治疗产生重大影响。

从 Neurovigil 的发展过程中可以看出:第一,即便拥有更好更廉价的技术,也不代表能轻易地将其转化为有市场价值,甚至更优质的新产品或服务;第二,当现有产品在市场中的地位根深蒂固,就会进一步开发出深入应用的二级市场,可以让新技术产生更直接的影响,并争取时间来改进,提升竞争力。太阳能和许多其他新兴产业的技术就是这样进入市场的。从长远来看,已被证实具有优势的睡眠监测和新技术将会覆盖到家中的患者,并最终融入医疗实践。

金融科技:利用数据和算法获取最佳回报

纽约证券交易所超过 75% 的交易都是自动完成的(图 1–6),高频交易能在几分之一秒内进出仓位。(如果你不用为每笔交易支付费用,那么即使是很小的优势也能带来巨额利润。)更长时间范围内的算法交易会考虑到基于大数据的长期趋势。深度学习在赚钱和提高利润方面做得越来越好。[21]预测金融市场,问题在于数据嘈杂,条件不稳定—— 一场选举或国际冲突可能会导致投资者心态在一夜之间发生变化。这意味着用来预测今天股票价值的算法可能到明天就不准了。在实践中,被用来赚钱的算法有数百种,表现突出的则被不断整合以实现最优回报。

图 1-6 延迟 vs 头寸持有时间。在线机器学习正在推动算法交易,它比传统的长期投资策略更快速,比股票市场中的高频交易更加慎重。许多不同类型的机器学习算法被组合运用以获得最佳回报。

早在 20 世纪 80 年代,我还在为摩根士丹利的股票交易神经网络模型提供咨询时,遇到了专门设计并行计算机的计算机科学家大卫 · 肖(David Shaw)。哥伦比亚大学学术休假期间,肖曾在自动化交易早期担任量化分析师,随后他在华尔街创立了自己的投资管理公司德劭集团(The D. E. Shaw Group),现在他已经是亿万富翁了。德劭集团非常成功,但仍然逊于另一家对冲基金文艺复兴科技公司(Renaissance Technologies)。这家基金是由杰出的数学家、纽约州立大学石溪分校数学系前主任詹姆斯 · 西蒙斯(James Simons)创立的。仅 2016 年,西蒙斯就挣了 16 亿美元,这还算不上他最好的一年。[22]文艺复兴科技被称为“世界上最好的物理和数学系,”[23]“它不会雇用带有哪怕一点点华尔街正统味道的人”。[24]

不再参与德劭的日常运营后,大卫 · 肖现在专注于德劭研究所(D. E. Shaw Research)的业务,该研究所搭建了一台名为“Anton”的专用并行计算机,比全球其他计算机执行蛋白质折叠的速度都快得多。[25]西蒙斯退休后不再掌管文艺复兴科技,而是建立了资助自闭症及其他物理和生物科学项目研究的基金会。通过加州大学伯克利分校的西蒙斯计算理论研究所(the Simons Institute for the Theory of Computing at UC Berkeley)、麻省理工学院的西蒙斯社会大脑中心(the Simons Center for the Social Brain at MIT)和纽约熨斗研究院(the Flatiron Institute),西蒙斯的慈善事业对推进数据分析、建模和仿真的计算方法产生了重大影响。[26]

更广泛的金融服务正在金融科技(fintech)的大背景下发生大规模转型。诸如区块链这样的信息技术—— 一种安全的互联网记账方式,取代了金融交易的中间商——正在接受小规模的测试,但它很快就会扰乱价值数万亿美元的金融市场。机器学习正在被用于改进贷款信用评估,准确地提供业务和财务信息,在社交媒体上获取预测市场趋势的信号,并为金融交易提供生物识别安全服务。谁拥有最多的数据,谁就是赢家,而世界上充斥着财务数据。

深度法律:效率的提高与费用的降低

深度学习刚刚开始影响法律界。律师事务所每小时收费数百美元的法务助理的大部分日常工作都将实现自动化,特别是在高档写字楼办公的规模化事务所里。具体点说,技术辅助审核或调查将被人工智能接管,它可以浏览数千份文件以获取合法证据,且丝毫不会感到厌倦。自动化深度学习系统也将帮助律师事务所遵守日益复杂的政府规定。这些系统将为现在无法负担律师费用的普通人提供法律建议。法律工作不仅收费会更便宜,也会更高效,这一点通常比费用更重要。法律世界正在走向“深度法律”。[27]

德州扑克:当机器智能学会了虚张声势

一对一无限注德州扑克是最受欢迎的扑克玩法之一,常见于赌场,无限注投注方式则通常出现在世界扑克系列赛(World Series of Poker)的主赛事中。扑克很有挑战性,因为与国际象棋玩家可以获得相同的信息不同,扑克玩家的信息不完整,而且在最高级别的比赛中,诈唬、欺骗的技巧和拿到的牌一样重要。

数学家约翰 · 冯 · 诺依曼(John von Neumann)创立了数学博弈理论,也是数字计算机之父,他就对扑克特别着迷。他说过:“现实生活包括虚张声势,一点欺骗手段,以及自问另一个人会怎么评判我做事的意图。这就是我理论中博弈的内涵。”[28]扑克是一种博弈,反映了经过进化精炼过的人类智能的一部分。一个名为“DeepStack”的深度学习网络和 33 名职业扑克选手进行了 44852 场比赛。令扑克专家震惊的是,它以相当大的优势,一个标准差,击败了最出色的扑克玩家,同时以四个标准差在整体上击败了全部 33 名玩家——多么巨大的差距(见图 1–7)。[29]如果这一成就能复制到其他基于不完全信息、需要人来做判断的重要领域,比如政治学和国际关系,其影响可能是极其深远的。[30]

图 1-7 一对一无限注德州扑克。强势手牌。DeepStack 已经掌握了如何在高筹码扑克中虚张声势,以大比分优势击败职业扑克玩家。

AlphaGo 奇迹:神经科学与人工智能的协同

2016 年 3 月,韩国围棋界 18 次世界冠军获得者李世石(Lee Sedol)与 DeepMind 公司的 AlphaGo(图 1–8)——一个使用深度学习网络评估盘面形势和可能的走法的围棋程序——进行了 5 场比赛。[31]围棋相对国际象棋的难度,相当于国际象棋对跳棋的难度。如果国际象棋是一场战役,那么围棋就是一场战争。一块 19×19 围棋棋盘比一块 8×8 象棋棋盘大得多,这使得在棋盘的不同部分可能同时发生多场战役。不同战役之间存在长期的相互作用,即使是专家也难以判断。围棋的合法棋局总数是 10170,远远超过宇宙中的原子数量。

图 1-8 韩国围棋冠军李世石对战 AlphaGo 的 5 场比赛里,某一场战局中的棋盘。AlphaGo 是一个通过与自己下围棋来学习的深度学习神经网络。

除了几个评估盘局并选择最佳着数的深度学习网络,AlphaGo 还有一个完全不同的学习系统,用于解决时间信用分配问题:在众多步棋中,哪一步对赢得胜利有所贡献,哪一步对失败承担责任?大脑的基底神经节接收来自整个大脑皮层的投射,并投射回去,利用时间差分算法和强化学习来解决这个问题。AlphaGo 使用由基底神经节进化出来的相同的学习算法,以评估最大化未来奖励的行动顺序(这一过程将在第 10 章中做出解释)。AlphaGo 通过反复和自己下棋来学习这一技能。

AlphaGo 和李世石对决的围棋比赛在亚洲得到了极高的关注。在亚洲,围棋冠军是全国性的公众人物,有着摇滚明星一样的待遇。AlphaGo 早些时候击败了欧洲的围棋冠军,但是那场比赛的水平远低于亚洲的最高水平,因此李世石并没有做好打一场硬仗的心理准备。即使是开发 AlphaGo 的公司 DeepMind,也并不清楚他们的深度学习程序到底有多强大。自上一场比赛以来,AlphaGo 已经与好几个版本的自己下了数百万局的棋,然而并没有任何标准来判断它的水平到底达到了何种高度。

AlphaGo 赢得了 5 场比赛的前 3 场后,许多人都感到十分震惊,因为它展现出了让人意想不到的高水准。这项比赛在韩国有很高的关注度,所有的主流电视台都对比赛进行了实况报道。AlphaGo 有一些着数是革命性的。在第二场比赛的第三十八步,AlphaGo 下出了精彩的一着,让李世石感到十分惊讶,他花了将近 10 分钟的时间才决定下一步要怎么走。AlphaGo 输掉了第四场比赛,这是人类挽回颜面的一场胜利,最终它的战绩是 4 胜 1 负(图 1–9)。[32]3 月的夜晚,我在圣迭戈的凌晨兴致勃勃地观看了这场较量。这让我回想起 1966 年 6 月 2 日凌晨 1 点,我在克利夫兰市,坐在电视机旁关注着“勘测者 1 号”探测器降落在月球上,并传回了第一张月球照片。[33]我亲眼见证了这些历史时刻。AlphaGo 的表现远远超出了我和其他许多人的期待。

图 1-9 在 2016 年 3 月的围棋挑战赛中输给了 AlphaGo 之后的李世石。

2017 年 1 月 4 日,一个名为“Master”的选手在一个网络围棋服务器上主动现身,其真正身份是 AlphaGo 2.0。在此之前,它在与世界顶尖棋手的比赛中取得了 60 场全胜的战绩,被击败的棋手中包括当时世界排名第一的高手,19 岁天才棋手柯洁。AlphaGo 显露出了一种能与同时代的佼佼者抗衡的全新风格。2017 年 5 月 27 日,在中国乌镇举办的围棋峰会上,柯洁以 3 场皆负的结果输给了 AlphaGo(见图 1–10)。这是有史以来最精彩的几场围棋比赛,数亿中国人都观看了该赛事。“去年,我还觉得 AlphaGo 的表现与人类非常接近,但今天我认为它是‘围棋之神’。”柯洁这样总结道。[34]

在第一场比赛中,他以一目半的微弱差距输掉了比赛。柯洁说他“在比赛中途已经感觉快要赢了”。他非常兴奋:“我能感觉到自己的心脏在怦怦直跳!可能因为我太兴奋,有几步棋走错了。也许这就是人类棋手最薄弱的部分吧。”[35]柯洁经历了一种情绪上的超负荷,但要达到最佳状态,更需要相对沉稳的情绪。事实上,舞台演员们都知道,如果他们演出前没有胃里翻江倒海的紧张感,就无法呈现出最精彩的演出。他们的表演遵循一种倒 U 形曲线,即最佳状态处于较低和较高的兴奋点之间。运动员把这叫作“在状态”。

图 1-10 2017 年在中国,DeepMind 的联合创始人兼 CEO 德米斯 · 哈萨比斯(Demis Hassabis,左)和柯洁在历史性的围棋比赛结束后会面,共同展示带有柯洁签名的棋盘。图片来源:德米斯 · 哈萨比斯。

2017 年 5 月 26 日,AlphaGo 还击败了由 5 名顶尖棋手组成的队伍。这些棋手都分析过 AlphaGo 的招数,并已经在相应地改变自己的策略。这场比赛由中国政府主办,可以说是一个新版的“乒乓外交”。[36]中国正在机器学习方面投入大量资金,其大脑研究计划的一个主要目标是挖掘大脑潜能来创造新的算法。[37]

该围棋事件后续的发展可能会更令人惊叹。在开始跟自己下棋之前,AlphaGo 是通过观察学习 16 万次人类围棋比赛起步的。有人认为这是作弊——一个自主的 AI 程序应该能够在没有积累任何人类知识的条件下学习下围棋。2017 年 10 月,一款名为 AlphaGo Zero 的新版本 AI 程序面世了。它从游戏规则开始一步步学习下围棋,击败了曾战胜柯洁的版本 AlphaGo Master,战绩为 100∶0。[38]此外,AlphaGo Zero 的学习速度比 AlphaGo Master 快 100 倍,而计算能力差不多只有后者的 1/10。完全忽略人类的知识,AlphaGo Zero 变成了无敌超人。随着机器学习算法的不断进步,AlphaGo 还会变得多么优秀,并没有已知的上限。

AlphaGo Zero 虽然没有和人下棋,但仍然有许多围棋知识被人为添加到程序中强化棋艺的特征。如果没有任何围棋知识,AlphaGo Zero 也许仍有进一步改进的空间。就像零度可乐将可口可乐里所有的热量分离出来一样,围棋的所有知识都被从 Alpha Zero 中剥离出来。结果,Alpha Zero 能够更快、更果断地打败 AlphaGo Zero。[39]为了进一步说明“少就是多”,Alpha Zero 在没有改变任何一个学习参数的情况下,学会了如何以超人的水准下国际象棋,还创造了人类从未使用过的着数。在与 Stockfish 这个已经是超人级别的顶级国际象棋程序的对决中,Alpha Zero 还没有输过。在一场比赛中,Alpha Zero 大胆地牺牲了一个象——这种做法通常用来获得位置上的优势,随后又牺牲了王后,这一步看起来像是个大昏着儿,直到很多步以后,Alpha Zero 冷不防将了一军,无论是 Stockfish 还是人类棋手都没能预见到这样的结果。外星人已经着陆,地球从此要改头换面了。

AlphaGo 的开发者 DeepMind 于 2010 年由神经学家德米斯 · 哈萨比斯参与创立,他曾在伦敦大学学院的盖茨比计算神经科学部门(University College London’s Gatsby Computational Neuroscience Unit)担任博士后研究员。该部门由彼得 · 达扬(Peter Dayan)领导,达扬曾是我实验室的博士后研究员,2017 年和雷蒙德 · 多兰(Raymond Dolan)以及沃尔夫拉姆 · 舒尔茨(Wolfram Schultz)共同获得了享有盛誉的“大脑奖”(Brain Prize),以表彰他们在奖励学习方面的研究。谷歌在 2014 年以 6 亿美元的价格收购了 DeepMind。该公司雇用了 400 多名工程师和神经科学家,拥有学术界和创业公司混合的双重文化。神经科学与人工智能之间的协同作用日渐深入,而且还在加速。

弗林效应:深度学习让人类更加智能

AlphaGo 有智力吗?除了“意识”这个主题,关于智力的文章比心理学中任何其他主题都要多得多,这两个概念都很难界定。自 20 世纪 30 年代以来,心理学家就对流体智力和晶体智力进行了区分——流体智力能够将新条件中的推理和模式识别用于解决新问题,而不依赖于以前的知识;晶体智力则依赖于先前的知识,也是标准智商测试(即 IQ 测试)的对象。流体智力遵循一种抛物线式发展轨迹,在成年早期达到高峰,并随着年龄的增长逐渐下降;而晶体智力会随年龄的增长,缓慢渐进式地提高,直至暮年。AlphaGo 只在一个相当狭窄的领域同时展现出了晶体智力和流体智力,但在这个领域,它表现出了令人惊讶的创造力。专业知识的获取也是基于在狭窄领域的学习。我们都是语言领域的专家,每天都在使用语言。

AlphaGo 使用的强化学习算法可以被用来解决许多问题。这种形式的学习只取决于在一系列动作结束时给予获胜者的奖励,这似乎和提前做出更好的决策相矛盾。结合了许多强大的深度学习网络,就会生成许多领域相关的智能。而且事实上,已经出现了与领域相关的不同类型智能,例如社会、情感、机械和建筑等的案例。[40]智力测试测量的一般因素(general factor,简称 g 因素)与这些不同类型相关。我们有理由认真审视 IQ 测试。自 20 世纪 30 年代首次测试智力以来,全人类平均的 IQ 分数每 10 年会上升三个点,这一趋势被称为“弗林效应”(Flynn effect)。对于弗林效应有许多可能的解释,比如更充足的营养、更完善的医疗体系,以及其他环境因素。[41]这很有道理,因为环境会影响基因调控,从而影响大脑内在的连接,行为也会随之发生变化。[42]随着人类越来越多地生活在人造环境中,大脑正在以某种超越自然进化轨道的方式被塑造。在更长的时间内,人类是否能一直都在变得更聪明?智商增长会持续多久?用电脑玩国际象棋、西洋双陆棋和围棋的人数自计算机程序达到冠军级别后一直在稳步增加,而机器也强化了人类玩家的智能。[43]深度学习提升的将不仅仅是科学研究人员的智能,还包括所有行业从业人员的智能。

科学仪器正以惊人的速度产生数据。位于日内瓦的大型强子对撞机(LHC)中发生的基本粒子碰撞每年产生 25PB(1PB=1000TB)的数据。大型综合巡天望远镜(LSST)每年将产生 6PB 的数据。机器学习正被用于分析庞大的物理和天文数据集,其规模之浩大让人类根本无法通过传统方法进行搜索。[44]例如,DeepLensing 是一种神经网络,可以识别遥远星系的图像。这些图像由于光在传播中因围绕周边星系的“引力透镜”造成的光路偏折而被扭曲了。这一技术可以自动发现许多遥远的新星系。物理学和天文学中还有许多其他类似“大海捞针”的问题,而深度学习能够让传统的数据分析方法如虎添翼。

新教育体系:每个人都需要终身学习

银行在 20 世纪 60 年代后期推出了面向银行账户持有人的全天候现金提取服务,这对于那些在银行正常营业时间之外需要现金的人来说非常方便,自动提款机(ATM)从此获得了阅读手写支票的能力。尽管它们的存在减少了银行柜员的日常工作量,但有越来越多的柜员为客户提供按揭和投资建议等个性化服务,同时也出现了维修 ATM 的新工种。[45]就如一方面,蒸汽机代替了体力劳动者,但另一方面,这为能够建造和维护蒸汽机及驱动蒸汽机车的熟练工人提供了新的就业机会。亚马逊的在线营销也将许多员工从当地实体零售店中迁移出来,但同时也为分配和运输其商品,以及许多使用其平台的企业创造了 38 万个新的工作机会。[46]由于现在需要人类认知技能的工作被自动化人工智能系统所接管,那些能够创建和维护这些系统的人将会获得新的工作。

工作变动不是什么新鲜事。19 世纪,农场劳工被机器取代,机器也在城市工厂创造了新的工作机会,所有这些都需要一个教育系统来培训工人新的技能。不同之处在于,今天,由人工智能开辟的新职位除了需要传统的认知技能之外,还需要新的、不同的、不断变化的技能。[47]所以我们都需要终身学习。要做到这一点,我们需要一个以家庭,而不是以学校为基础的新教育体系。

幸运的是,就像寻找新工作的需求变得迫在眉睫一样,互联网上免费的大规模开放式在线课程慕课(MOOCs)也应运而生,来帮助人们获取新的知识和技能。虽然仍处于初级阶段,但慕课的在线教育生态系统正在迅速发展,并在为更广泛的人群提供前所未有的优质教学。与下一代数字辅助系统相结合,慕课则可能会带来变革。芭芭拉 · 奥克利(Barbara Oakley)和我开设了一门名为“学会如何学习”(Learning How to Learn)的慕课——该热门课程会教你如何成为更好的学习者(见图 1–11)——以及一门名为“思维转换”(Mindshift)的慕课,教你如何改造自己并改变你的生活方式(这两门课将在第 12 章中详细介绍)。

图 1-11 “学会如何学习”教你如何成为更好的学习者,它是互联网上最受欢迎的慕课,拥有超过 300 万学习者。

进行网上操作时,其实正在生成机器可读的关于你自己的大数据。根据你在互联网上行为的蛛丝马迹,你正在被自动生成的相关广告定位。你在 Facebook(脸谱网)和其他社交媒体网站上发布的信息可被用于创建数字助理,它几乎比世界上任何其他人都更了解你,并且不会遗漏任何内容,实际上就相当于你的虚拟分身。通过将互联网跟踪和深度学习都纳入服务,现在这些孩子的后代拥有的教育机会将比今天富裕家庭拥有的最优质的教育机会还要好。这些孙辈将拥有自己的数字导师,导师将在整个教育过程中陪伴他们。教育不仅会变得更加个性化,也会变得更加精准。世界各地已经开展了各种各样的教育实验,例如可汗学院,由盖茨基金会、陈–扎克伯格基金会和其他慈善基金会资助。这些实验机构正在测试软件,以便让所有的孩子都可以根据自己的节奏进步,并适应每个儿童的特定需求。[48]数字导师的普及将使教师从教学中的重复劳动,如评分中解脱出来,专注于人类最擅长的事情——对学习困难的学生提供精神支持,并给予有天赋的学生灵感启发。教育技术(Edtech)正在快速发展,与自动驾驶汽车相比,传统教育向精准教育过渡的速度可能相当快,因为它必须克服的障碍要小得多,需求却要大得多,而且美国的教育是一个万亿美元的市场。[49]一个主要的问题就是,谁能够访问数字助理和数字导师的内部文件。

正面影响:新兴技术不是生存威胁

AlphaGo 在 2016 年毫无争议地击败了李世石,这激化了过去若干年引发的人工智能可能给人类带来威胁的担忧。计算机科学家签署了不会将 AI 用于军事目的的承诺协议。斯蒂芬 · 霍金(Stephen Hawking)和比尔 · 盖茨(Bill Gates)公开发表声明,警告人工智能可能对人类造成的生存威胁。伊隆 · 马斯克(Elon Musk)和其他硅谷企业家成立了一家新公司 OpenAI,拥有 10 亿美元储备金,并聘请了杰弗里 · 辛顿之前的一名学生伊利娅 · 苏特斯科娃(Ilya Sutskever)担任第一任总监。虽然 OpenAI 既定目标是确保未来人工智能的发现将公开供所有人使用,但它还有另一个隐含的更重要的目标:防止私人公司作恶。AlphaGo 战胜了围棋世界冠军李世石,一个临界点也随之到来。几乎在一夜之间,人工智能从一项失败的技术,转变成了可感知的生存威胁。

一种新兴技术被看作生存威胁,这已经不是第一次了。核武器的发明、改进和储存曾经是一种毁灭全世界的威胁,但至少到目前为止,我们有能力阻止这种情况的发生。重组 DNA 技术刚问世的时候,人们担心经人工改造的致命生物会从实验室逃出来,导致全球范围内出现难以估量的痛苦和死亡。基因工程现在已经是一项成熟的技术,目前我们已经能和它的产物共存。与核武器和致命生物相比,机器学习的最新进展构成的威胁相对较小。我们也将适应人工智能。事实上,这已经在发生了。

DeepStack 的成功带来的其中一个暗示是,深度学习网络可以学习如何成为世界顶级的骗子。训练深层网络能干什么只受限于训练者的想象力和数据。如果一个网络可以接受安全驾驶汽车的训练,那么它也可以被训练驾驶 F1 赛车,很可能有人愿意为此掏腰包。今天,我们仍然需要技术娴熟和训练有素的从业人员使用深度学习来搭建产品和服务,但随着计算能力的成本持续下降、软件功能更加自动化,很快,高中生就可能具备开发 AI 应用程序的能力了。作为德国收入最高的在线电子商务公司,奥托(Otto)主要经营服装、家居和体育用品。它正在利用深度学习,根据历史订单信息预测客户未来可能购买的产品,并提前为他们下单。[50]客户几乎在订购前就收到了自己想订购的商品,准确率达到 90%。自动完成工作且无须人工干预,这种预订操作不仅可以每年为公司在剩余库存和退货环节节省数百万欧元,还提高了客户满意度和保有率。深度学习显著提高了奥托公司的生产力,却并没有取代它的工人。人工智能可以让你在工作中更高效。

虽然主要的高科技公司开拓了深度学习的应用,但机器学习工具已经普遍存在了,许多其他公司也开始从中受益。Alexa 是一个广受欢迎的数字助理,与亚马逊 Echo 智能音箱配合使用,能够基于深度学习对自然语言发出的请求做出回应。亚马逊网络服务(AWS)引入了名为“Lex”、“Poly”和“Comprehend”的工具箱,可以分别基于自动化文字、语音转换、语音识别和自然语言理解,方便地开发相同的自然语言界面。具有对话交互能力的应用程序现在可供无力雇用机器学习专家的小型企业使用。企业通过应用这一程序可以提高客户满意度。

当最好的人类棋手在计算机程序面前都黯然失色时,人类会不再下棋吗?正相反,人工智能会提高人类的竞技水平,也使得棋类竞技更加大众化。顶级的国际象棋选手曾经都来自莫斯科和纽约等大城市。这些地方大师云集,可以教授年轻棋手并提高他们的技能水平。国际象棋电脑程序使得在挪威小镇长大的马格努斯 · 卡尔森(Magnus Carlson)13 岁就成为国际象棋大师,如今他已是世界国际象棋冠军。人工智能不仅对游戏产生了正面的影响,更会推动人类付诸努力的各个方面,从艺术到科学。AI 可以让你变得更聪明。[51]

回到未来:当人类智能遇到人工智能

本书有两个相互交织的主题:人类智能是如何进化的,以及人工智能会如何演变。这两种智能之间的巨大差异在于,人类智能的进化经历了数百万年的时间,而人工智能在最近几十年才发展起来。尽管对于文化演变来说,这个速度仍然是快得出奇,但是过于谨小慎微可能并不是个正确的选择。

深度学习在近期取得的突破,并不是你从新闻报道中读到的那种一夜成功。从基于符号、逻辑和规则的人工智能向基于大数据和学习算法的深度学习网络的转变,其背后的故事通常并不为人所熟知。本书介绍了这个故事,并从我的角度探讨了深度学习的起源和成果。作为 20 世纪 80 年代开发神经网络学习算法的先行者和 NIPS 基金会的主席,我亲身经历了过去 30 年机器学习和深度学习的发展过程。我和同在神经网络领域的同事多年来都未能取得令人瞩目的成就,但坚持和耐心最终给我们带来了回报。


[1] “啊,美丽的新世界,有这么美的人在里头!”(“O brave new world that has such people in’t!”)来自莎士比亚的剧作《暴风雨》中米兰达的台词(5.1.182–183 [Oxford Standard Authors Shakespeare])。

[2] Bill Vlasic, “G.M. Wants to Drive the Future of Cars That Drive Themselves,” NewYork Times, June 4, 2017, https://www.nytimes.com/2017/06/04/business/generalmotors-self-driving-cars-mary-barra.html.

[3] “Full Tilt: When 100% of Cars Are Autonomous,” New York Times Magazine, November 8, 2017, https://www.nytimes.com/interactive/2017/11/08/magazine/tech-design-autonomous-future-cars-100-percent-augmented-realitypolicing.html?hp&action=click&pgtype=Homepage&clickSource=storyheading&module=second-column-region&region=top-news&WT.nav=top-news/.

[4] Christopher Ingraham, “The Astonishing Human Potential Wasted on Commutes,”Washington Post, February 24, 2016, https://www.washingtonpost.com/ news/wonk/wp/2016/02/25/how-much-of-your-life-youre-wasting-on-your-commute/?utm_term=497dfd1b5d9c..

[5] “Full Tilt: When 100% of Cars Are Autonomous,” New York Times Magazine,November 8, 2017, https://www.nytimes.com/interactive/2017/11/08/magazine/tech-design-autonomous-future-cars-100-percent-augmented-realitypolicing.html ?hp&action=click&pgtype=Homepage&clickSource=storyheading&module=second-column-region&region=top-news&WT.nav=top-news/.

[6] “Google’s Waymo Passes Milestone in Driverless Car Race,” Financial Times,December 10, 2017, https://www.ft.com/content/dc281 ed2-c425-11 e7-b2bb322b2cb39656/.

[7] B. A. Golomb, “Will We Recognize It When It Happens?” in Brockman, J., (ed.),What to Think About Machines That Think(New York: Harper Perennial, 2015),533– 535.

[8] Pierre Delforge, “America’s Data Centers Consuming and Wasting Growing Amounts of Energy,” Natural Resources Defense Council Issue Paper, February 6, 2015, https://www.nrdc.org/resources/americas-data-centers-consuming-andwasting-growing-amounts-energy/.

[9] W. Brian Arthur, “Where Is Technology Taking the Economy?” McKinsey Quarterly,October, 2017, https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/Where-is-technology-taking-the-economy/.

[10] 乞力马扎罗山是一座雪山,高 19710 英尺,据说是非洲最高的山峰。它的西峰被马赛人称作“Ngaje Ngai”,意为“上帝的家”。靠近西峰有一具干燥、冰冻的豹子尸体。没有人解释过这只豹子在那个高度是要寻找什么。

[11] 乞力马扎罗山是一座高达 19710 英尺的雪山,据说是非洲最高的山峰。它的西峰在马赛语里被称为“Ngaje Ngai”,上帝的家。西峰附近有一具干燥、冷冻的豹子尸体。从来没有人解释过豹子在那个高度想要找什么。

[12] Gideon Lewis-Kraus, “The Great A. I. Awakening,” New York Times Magazine,December 14, 2016, https://www.nytimes.com/2016/12/14/magazine/the-greatai-awakening.html.

[13] Aleksandr Sergeevich Pushkin, Eugene Onegin: A Novel in Verse, 2nd ed., trans.Vladimir Nabokov (Princeton: Princeton University Press, 1991).

[14] 关于这一做法的早期尝试,请参阅 Andrej Karpathy, “The Unreasonable Effecti-veness of Recurrent Neural Networks,” Andrej Karpathy Blog, posted May 21, 2015, http://karpathy.github.io/2015/05/21/rnn-effectiveness/.

[15] G. Hinton, L. Deng, G. E. Dahl, A. Mohamed, N. Jaitly, A. Senior, et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition,” IEEE SignalProcessing Magazine29, no. 6 (2012): 82–97.

[16] W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, et al., “Achieving Human Parity in Conversational Speech Recognition,” Microsoft Research Technical Report MSR-TR-2016-71, revised February 2017, https://arxiv.org/pdf/1610.05256.pdf.

[17] A. Esteva, B. Kuprel, R. A. Novoa, J. Ko J, S. M. Swetter, H. M. Blau, and S.Thrun, “Dermatologist-Level Classification of Skin Cancer with Deep Neural Networks,” Nature542, no. 7639 (2017): 115–118.

[18] Siddhartha Mukherjee, “A.I. versus M.D.: What Happens When Diagnosis Is Automated?” New Yorker, April 3, 2017, http://www.newyorker.com/magazine/2017/04/03/ai-versus-md/.

[19] Dayong Wang, Aditya Khosla, Rishab Gargeya, Humayun Irshad, Andrew H. Beck,Deep Learning for Identifying Metastatic Breast Cancer, arXiv:1606.05718. 他们使用的测量方法在信号检测理论里被称为“曲线下面积”,它对假阴性和假阳性都很敏感。https://arxiv.org/abs/1606.05718/.

[20] Anthony Rechtschaffen and Alan Kales, eds., A Manual of StandardizedTerminology, Techniques and Scoring System for Sleep Stages of Human Subjects,National Institutes of Health publication no. 204 (Bethesda, MD: U.S. National Institute of Neurological Diseases and Blindness, Neurological Information Network, 1968).

[21] 参阅Ian Allison, “Former Nuclear Physicist Henri Waelbroeck Explains How Machine Learning Mitigates High Frequency Trading,” International Business Times, March 23, 2016, http://www.ibtimes.co.uk/former-nuclear-physicist-henriwaelbroeck-explains-how-machine-learning-mitigates-high-frequency-1551097/;Bailey McCann, “The Artificial-Intelligent Investor: AI Funds Beckon,” Wall Street Journal, November 5, 2017, https://www.wsj.com/articles/the-artificialintelligent-investor-ai-funds-beckon-1509937622/.

[22] Sei Chong, “Morning Agenda: Big Pay for Hedge Fund Chiefs despite a Rough Year,” New York Times, May 16, 2017, https://www.nytimes.com/2017/05/16/business/dealbook/hedge-funds-amazon-bezos.html.

[23] 除了雇用了数千名数学家的美国国家安全局。Alfred W. Hales, personal communication, May 4, 2016.

[24] Sarfaz Manzoor, “Quants: The Maths Geniuses Running Wall Street,” Telegraph,July 23, 2013, http://www.telegraph.co.uk/finance/10188335/Quants-the-mathsgeniuses-running-Wall-Street.html.

[25] D. E. Shaw, J. C. Chao, M. P. Eastwood, J. Gagliardo, J. P. Grossman, C. Ho, et al., “Anton: A Special-Purpose Machine for Molecular Dynamics Simulation,”Communications of the ACM51, no. 7 (2008): 91–97.

[26] D. T. Max, Jim Simons, “The Numbers King,” New Yorker, December 18 &25, 2017, https://www.newyorker.com/magazine/2017/12/18/jim-simons-thenumbers-king/.

[27] 很快就会被拍成电影。

[28] 约翰 · 冯 · 诺依曼,引自根据雅各布 · 布罗诺夫斯基(Jacob Bronowski)的著作改编的电视纪录片《人类的攀升》 (The Ascent of Man),第 13 集(1973 年)。

[29] 参阅 M. Moravík, M. Schmid, N. Burch, V. Lisý, D. Morrill, N. Bard, et al.,“Deep-Stack: Expert-Level Artificial Intelligence in Heads-Up No-Limit Poker,”Science356, no. 6337 (2017): 508–513。标准偏差是钟形曲线的半峰宽。只有 16% 的样本落入平均值的一个标准偏差之外的区域。只有万分之三的样本在平均值的四个标准偏差以外。

[30] 脑海中浮现出了 1983 年科幻电影《战争游戏》(War Games)中的场景。参阅 https://en.wikipedia.org/wiki/WarGames。

[31] 参阅 D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. v. d. Driessche,et al., “Mastering the Game of Go with Deep Neural Networks and Tree Search,”Nature529, no. 7587 (2016): 484–489.

[32] “我不知道今天该说些什么,”李世石告诉媒体记者,“但我想我必须先表示歉意。我应该能表现得更好,在比赛中占据更多的主动。我也很抱歉,让很多人失望了。我觉得很无助。如果回顾三场比赛,即使第一场比赛能够重赛,我也不认为自己会取胜,因为那时我误判了 AlphaGo 的能力。” Jordan Novet, “Go Board Game Champion Lee Sedol Apologizes for Losing to Google’s AI,” Venture Beat, March, 12, 2016, https://venturebeat.com/2016/03/12/goboard-game-champion-lee-sedol-apologizes-for-losing-to-googles-ai/。

[33] “勘测者 1 号”于 1966 年 6 月 2 日,国际标准时间 6 点 17 分 36 秒(美国东部时间凌晨 1 点 17 分 36 秒)登陆月球表面。着陆点位于弗拉姆斯蒂德火山口(Flamsteed Crater)以北一个直径为 100 公里的陨坑内。

[34] Ke Jie, as quoted in Selina Cheng, “The Awful Frustration of a Teenage Go Champion Playing Google’s AlphaGo,” Quartz, May 27, 2017, https://qz.com/993147/the-awful-frustration-of-a-teenage-go-champion-playing-googlesalphago/.

[35] Ke Jie, as quoted in Paul Mozur, “Google’s A.I. Program Rattles Chinese Go Master As It Wins Match,” New York Times, May 25, 2017, https://www.nytimes.com/2017/05/25/business/google-alphago-defeats-go-ke-jie-again.html.

[36] 老版的“乒乓外交”指 1971 年中国和美国乒乓球队开展互访的友好往事,不仅推动了中美两国关系正常化的进程,也加速了中国走向世界的步伐。——编者注

[37] Paul Mozur, “Beijing Wants A.I. to Be Made in China by 2030,” New York Times,July 20, 2017, https://www.nytimes.com/2017/07/20/business/china-artificialintelligence.html.

[38] Silver D., J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T.Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel, and D. Hassabis, “Mastering the Game of Go Without Human Knowledge,” Nature550 (2017): 354–359.

[39] David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis, Mastering Chess and Shogiby Self-Play with a General Reinforcement Learning Algorithm, arXiv:1712.01815(2017).

[40] Harold Gardner, Frames of Mind: The Theory of Multiple Intelligences, 3rd ed. (New York: Basic Books, 2011).

[41] J. R. Flynn, “Massive IQ Gains in 14 Nations: What IQ Tests Really Measure,”Psychological Bulletin101, no. 2 (1987):171–191.

[42] S. Quartz and T. J. Sejnowski, Liars, Lovers and Heroes: What the New Brain Science Has Revealed About How We Become Who We Are(New York: Harper Collins, 2002).

[43] Douglas C. Engelbart, Augmented Intelligence: Smart Systems and the Future of Work and Learning, SRI Summary Report AFOSR-3223 (Washington, DC:Doug Engelbart Institute, October 1962), http://www.dougengelbart.org/pubs/augment-3906.html.

[44] M. Young, “Machine Learning Astronomy,” Sky and Telescope, December (2017):20–27.

[45] “Are ATMs Stealing Jobs?” The Economist, June 15, 2011, https://www.economist.com/blogs/democracyinamerica/2011/06/technology-and-unemployment/.

[46] John Taggart and Kevin Granville, “From ‘Zombie Malls’ to Bonobos: What America’s Retail Transformation Looks Like,” New York Times, April 15, 2017.

[47] E. Brynjolfsson and T. Mitchell, “What Can Machine Learning Do? Workforce Implications,” Science(2017): 358:1530–1534. doi: 10.1126/science.aap8062.

[48] “Technology Is Transforming What Happens When a Child Goes to School:Reformers Are Using New Software to ‘Personalise’ Learning,” Economist, July 22, 2017, https://www.economist.com/news/briefing/21725285-reformers-areusing-new-software-personalise-learning-technology-transforming-what-happens/.

[49] 教育市场的估值超过 1.2 万亿美元,主要包含三个领域:早期儿童教育(700 亿美元),K–12(即从幼儿园到高中三年级的基础教育,6700 亿美元),以及高等教育(4750 亿美元)。参阅 Arpin Gajjar, “How Big Is the Education Market in the US: Report from the White House,” Students for the Future, October 10, 2008, https://medium.com/students-for-the-future/how-big-is-the-educationmarket-in-the-us-report-from-white-house-91dc313257c5。

[50] “Algorithmic Retailing: Automatic for the People,” Economist, April 15, 2017,

[51] T. J. Sejnowski, “AI Will Make You Smarter,” in Brockman, J. (ed.), What to ThinkAbout Machines That Think(New York: Harper Perennial, 2015), 118–120.

02 人工智能的重生
03 神经网络的黎明
04 大脑式的计算
05 洞察视觉系统
要事年表
06 语音识别的突破
07 霍普菲尔德网络和玻尔兹曼机
08 反向传播算法
09 卷积学习
10 奖励学习
11 火爆的 NIPS
要事年表
12 智能时代
13 算法驱动
14 芯片崛起
15 信息科学
16 生命与意识
17 进化的力量
18 深度智能
附录一 致谢
附录二 词汇表

阅读全文: http://gitbook.cn/gitchat/geekbook/5c8b52cba430d57426338ac1

相关推荐
深度学习智能时代核心驱动力量》,中信出版社出版,作者:特伦斯·谢诺夫斯基 (Terrence Sejnowski) (作者), 姜悦兵 (译者)。全球科技巨头纷纷拥抱深度学习,自动驾驶、AI医疗、语音识别、图像识别、智能翻译以及震惊世界的AlphaGo,背后都是深度学习在发挥神奇的作用 1956年,达特茅斯人工智能夏季研究计划首次提出“人工智能”一词,标志着这一学科的正式诞生,并鼓舞了一代又一代的科学家不断探寻可以媲美人类智慧的信息技术的潜力。近年来,由于深度学习和神经网络技术的广泛应用,人工智能步入黄金时代,实现井喷式发展,对人类社会的生活和生产方式都产生了十分深刻的影响。   作为人工智能从概念到繁荣得以实现的主流技术,“深度学习”也被全球各大科技巨头纷纷拥抱。自动驾驶、AI医疗、语音识别、图像识别、智能翻译以及震惊世界的AlphaGo…… 我们今天所看到的各种形式的人工智能,背后都是“深度学习”在发挥神奇的作用。   深度学习究竟是什么?它是如何一步步影响科技、商业和社会生活的?未来若干年,它又将如何影响我们所处的世界?如何让深度学习为个人和生产赋能,发挥作用呢? 2019年2月,全球人工智能十大科学家之一、深度学习先驱及奠基者 特伦斯·谢诺夫斯基将出版新书《深度学习智能时代核心驱动力量》,首次以亲历者视角回溯了深度学习浪潮在过去60年间的发展脉络与人工智能的螺旋上升,并前瞻性地预测了智能时代的商业图景。 《深度学习智能时代核心驱动力量》 中信出版集团 2019.2   “深度学习”是人工智能发展历程中承上启下的重要阶段   “深度学习”是机器学习的一个分支,它根植于数学、计算机科学和神经科学。是指通过模仿人脑的神经网络,让机器像人类一样拥有学习能力的一种技术。经过深度学习训练的计算机,不再被动按照指令运转,而是像自然进化的生命那样,开始自主地从经验中学习。它脱胎于60年前开启的人工智能研究,而其自身的概念形成,到落地开花,则只有十多年的光景。   “微软小冰之父”李笛在本书的推荐序中写道:与过去相比,深度学习极大地推进了人工智能各个分支课题的发展速度;与未来相比,我们今天所取得的一切成果,都是非常粗糙的,注定会被更好的成果取代。因此,了解深度学习,就如同站在一个关键的节点上向时间河流的上下游看,一览无遗。   AI领域奠基者,首次以亲历者视角全景解析“深度学习”   特伦斯·谢诺夫斯基是世界十大AI科学家之一,全球人工智能顶级会议NIPS基金会主席。作为深度学习领域的先驱和奠基者,他亲历了深度学习在20世纪70年代到90年代的寒冬。但他和一众开拓者,利用大数据和不断增强的计算能力,终于在神经网络算法上取得重大突破,实现了人工智能井喷式的发展。   作为神经网络的先驱,早在1986年,特伦斯就与深度学习之父杰弗里·辛顿共同发明了玻尔兹曼机,把神经网络带入到研究与应用的热潮,将深度学习从边缘课题变成了互联网科技公司仰赖的核心技术,实现了人工智能井喷式的发展。   1989年,特伦斯加入美国索尔克生物研究所(美国生命科学领域成果最多的研究机构),与DNA双螺旋结构的发现者之一弗朗西斯·克里克作为同事,共同研究神经网络科学。   在全球最大的在线学习平台Coursera上,特伦斯还与奥克兰大学的教授芭芭拉·奥克利共同开设了一门叫做《学会如何学习》的课程,通过系统讲解大脑认知的底层知识,让学习者可以改变思维模式,提高学习的能力和效率。现在这个课程已经有超过300万学员参与,成为了全球最受欢迎的互联网课程。   人工智能时代,你不可不知的五大重要趋势   人工智能时代,每个人都与深度学习息息相关。在《深度学习智能时代核心驱动力量》一书中,特伦斯不仅首次全景展现了深度学习的演变与应用,更前瞻性地预测了智能时代的商业图景和重要趋势。   趋势1——AI医疗:更准确的诊断和治疗   通过对超过2000种不同疾病的13万张皮肤病医学图像数据库的深度学习后,计算机对新患者医学影像的诊断与21位顶级皮肤科专家的结论基本一致,甚至在某些情况下还要更准确。   以前我们看病要先去挂号、看医生、拍片子、等诊断结果,以后我们只要拿手机拍下意思皮肤病变的照片,就可以立即进行诊断——这让我们可以在早期就开始治疗,并且不用承担遇到庸医的风险。不单是皮肤病,通过深度学习的诊断,医生可以将癌症诊断的准确度从0.966提高到0.995。误判的情况将大大减少,更多生命将被挽救。   《深度学习》会告诉你更多AI医疗的应用场景,以及我们将如何受益。   趋势2——未来教育:成为更好的学习者   传统的教育体系像是一个流水线系统,对学生按年龄进行划分,教师在大班里年复一年地传授相同的课程。当工作岗位需要更高水平的培训和终身学习来更新工作技能时,这个系统就落伍了。最优质和最有效的教学方式是让经验丰富的成人教师和学生之间进行一对一交流。   2011年秋季,三位斯坦福大学教授在网上公开发布了自己的“人工智能导论”上课视频,不收取任何费用,他们的这一举动打开了潘多拉盒子。这门课程吸引了16万人注册,有23000人坚持学完了该课程。在这之后,曾在谷歌任职的塞巴斯蒂安·图伦教授参与创办了网上大学Udacity,主要提供大量在线公开课程,或者简称“慕课”。   慕课不仅仅是在线学习,它改变了“老师给学生传授知识”这种自上而下的传统模式,取而代之的是大不相同的紧密联系模式,即教师与学生之间、学生彼此之间不再是层级关系,而是共同学习、探索和讨论的关系。   趋势3——社交变革:社交机器人的崛起   人工智能已经成为我们生活中的一部分,比如生活中常见的智能音箱,或者苹果手机智能语音助手Siri。社交聊天机器人可以在闲聊中帮助用户执行多种任务。   2014年5月微软发布小冰,之后她成为使用最广泛的社交聊天机器人。她理解用户的情感需求,进行人际沟通,在对话中鼓励用户、吸引用户参与对话、逗用户开心。这些对话使用户的情绪变得更加积极,为用户提供情感支持和社交归属感。   趋势4——跨文化交流:语音识别和语言翻译   早在1946年第一台计算机发明之初,就有科学家提出利用计算机自动进行语言翻译的设想。经历70多年的发展,机器翻译先后涌现出多种方法。近几年,随着深度学习技术被应用到翻译领域,翻译质量大幅跃升,百度、谷歌、微软等巨头公司相继发布了一系列基于最新人工智能技术的翻译系统和产品。当语音识别和语言翻译结合到一起时,实时的跨文化交流将有可能实现。《星际迷航》中那种万能翻译机将触手可及。   趋势5——未来的身份认证:面部识别和生物扫描   在我们的生活的很多场景中都会用到面部识别系统,比如手机屏幕解锁、支付宝刷脸支付。除了固定的面部图像之外,人工智能已经学会识别人类的面部表情。美国一家名为“Emotient” 的公司开发的深度学习网络能够以 96% 的准确率,在各种不同的照明条件下,利用面部信息识别人物情绪,并实时地对自然行为做出判断。在不久的将来,你的iPhone可能不仅会问你为什么不高兴,还可能帮助你冷静下来。   正如李笛在《深度学习》的推荐序中写道:“《深度学习》并非教科书,而是一本面向未来的历史书。”站在科技拐点,是被AI取代,还是让AI把你变得更聪明成为时代的驾驭者,取决于你对深度学习的理解。
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页