越来越卷的AI,未来路在何方

682901afe965050814076d6a15c917df.gif

作者 | 路

来源 | 数据STUDIO

在今年的三月10日,Robust.AI 创始人、纽约大学名誉教授 Gary Marcus 表示端到端的深度学习可能将要撞到南墙了。在他的一些文章中,他认为目前的端到端深度学习会在我们需要粗略结果时表现得很好,但在让真正人工智能具备理解能力这件事上早已遇到瓶颈。而他认为人工智能的正确发展方向可能是符号系统+神经网络的混合系统。

c9f750baf5d72064a0319a0183a38778.png 87c1f4f785e597f83e02a90877dcdac2.png

Marcus推特,图片来源@Twitter

为什么他会提出这样的观点,目前人工智能的发展方向到底出了什么问题?而符号系统又是什么体系,AI的未来是否真正和它有关系?本文就针对此问题进行讨论。

cba37ab4d6bba05465e0fd623afca101.png

人工智能的发展

要讨论智能,首先需要强调人类的两类认知系统。认知科学中将人类的认知分为系统1和系统2,其中系统1表示直觉的、快速的、无意识的、非语言的、习惯的认知系统,系统2则表示慢的、有逻辑的、有序的、有意识的、可用语言表达以及可推理的系统。想要形象地理解这两者可以看下图。

5cf477a596e04056b515ebd879062d90.jpeg

穆勒-莱尔视觉,图片来源@知乎

该图是经典的穆勒-莱尔幻觉,实际上三个线段长度相同,但在第一眼看上去会认为它们长度不同。这里认为它们长度不同的第一直觉就运用了系统1,经过推理后得出它们长度相同的结论就运用了系统2。

目前的深度学习,具备快速、端到端、非语言、不可解释的特点,就类似于人类智能中的系统1。但我们知道,人的智能绝不仅仅限制于直觉,而是具有推理能力和可解释性的系统2。因此未来想要发展出真正人性化的人工智能,需要的不是继续在系统1人工智能的领域深耕,而是转向系统2人工智能进行研究。

提起人工智能不得不首先提及图灵。早在1950年,图灵就提出了著名的图灵测试,用于测试机器能否表现出与人等价或无法区分的智能。在1956年的达特茅斯会议上,“人工智能”的概念被首次提出。这是人类历史上第一次人工智能研讨,标志着人工智能学科的诞生。之后在人工智能的发展过程中,不同时代、学科背景的人对于智慧的理解及其实现方法有着不同的思想主张,并由此衍生了不同的学派,影响较大的学派及其代表方法如下:

dde76e4ced109331fb25975cc96436b0.png

人工智能学派,图片来源@知乎

其中联结主义和符号主义是最主要的两大派系。近年来由于强化学习取得了显著成就(AlphaZero称霸围棋领域),行为主义学派也越来越受重视。

在人工智能的发展过程中,不同的学派提出了不同的研究方法,其中最主要的一个分支就是机器学习。目前常见的机器学习算法如下图所示,该图按照有监督学习、无监督学习和强化学习的类别进行分类,需要强调有一些算法游离于这个体系之外(如PCA降维),有一些算法不仅仅局限于标记出的这一个类别(如神经网络)。

ce5af85acde4b53f0293393eb545d506.png

机器学习分类,图片来源@自制

需要强调的是,人工智能包括机器学习,机器学习包括深度学习,相互之间是包含和被包含的关系。目前而言,在各种问题领域效果最好的无疑是深度学习。

a8e498e53da67a8b53455dfcdec40dd8.png

深度学习的兴起及其效果优异的原因

深度学习(即神经网络)最近几年的兴起始于2012年,Hinton和他的学生Alex Krizhevsky设计的AlexNet神经网络模型在ImageNet竞赛大获全胜,这是史上第一次有模型在 ImageNet 数据集上有如此出色的表现,并因此引爆了神经网络的研究热情。

但和很多人想象中不同,神经网络在很早之前就已经产生。

1957年,Frank Rosenblatt就已经在当时的计算机上模拟实现了感知机(Perceptron),可以被视为一种最简单形式的前馈式人工神经网络。

1974年,哈佛大学Paul Werbos在其博士论文里首次提出了通过误差的反向传播(BP)来训练人工神经网络,但局限于算力在该时期未引起重视。

1982年,John Hopfield发明了霍普菲尔德网络,这是最早的RNN的雏形。

1986年,Hinton等人先后提出了多层感知器(MLP)与反向传播(BP)训练相结合的理念,开启了神经网络新一轮的高潮,但同样由于算力不足未能取得较大突破。

1989年,LeCun 结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络(Convolutional Neural Network,CNN),并首次将卷积神经网络成功应用到美国邮局的手写字符识别系统中(类似于现在的MNIST数据集)。

1997年,Sepp Hochreiter 和 Jürgen Schmidhuber提出了长短期记忆神经网络(LSTM)。

2006年,Hinton以及他的学生正式提出了深度学习的概念(Deeping Learning),这一年也被称为深度学习元年,而Hinton被称为深度学习之父。

之后自从2012年AlexNet网络的爆火直到现在,深度学习一直是人工智能研究的最前沿,陆陆续续解决了许多不同领域的各种问题。

2e253b8a6f10c24864daeabdf8066d69.jpeg

神经网络,图片来源@知乎

但同时,深度学习也有许多不可忽视的缺点:只能根据既有的数据来学习而不会判断数据正确性,且无法解释做出的决策。而从系统设计的角度上来说,深度学习正因为牺牲了微观和主动意义上的可解释性(如设定某个节点或者某个参数的含义),转向架构和机制上的设计,从而获得了系统描述能力上的灵活性。即深度学习取得如此优秀成绩的原因,恰恰是因为其有这些缺点。

到目前为止,深度学习的唯一真正的成功是使用连续几何变换将空间 X 映射到空间 Y 的能力,但还要给出大量的人为注释的数据。神经网络做到的这一切基本上能改变每一个行业的游戏规则,但是距离第二类人工智能还有很长一段路要走。为了让 AI 解决这些限制,并开始与人类大脑竞争,我们需要跳出简单的输入到输出映射,关注推理和抽象。这也是Gary Marcus认为需要引入符号系统的原因之一。

那么除了深度学习之外,机器学习的其他类型能否成为AI未来所走的道路呢?

71b0fd46aedfb8877802af37eabd721f.png

有监督学习和无监督学习的局限性

如本文第一部分所述,深度学习被包含在机器学习里面。而机器学习又可分为主要三种类型:有监督学习、无监督学习和强化学习。在监督学习中,计算机从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。在无监督学习中,计算机使用既未分类也未标记的数据自行学习。在强化学习中,计算机通过与环境进行交互获得的奖赏指导行为。

54fe656177193ed2eefe4dcb8f748963.png

有监督学习和无监督学习的区别,图片来源@知乎

目前而言,无监督学习很难取得突破性进步。在机器学习领域,输入数据一般是现实生活中的数据。这些数据存在着动力学特征、逻辑联系等等,对于人类来说,这很容易找到其中的关系、但是对只有逻辑计算能力和数学计算能力的计算机来说,这很难去理解。事实上很有可能需要等计算机拥有自主逻辑思考和推理能力后,无监督学习才能取得较大突破,即无监督学习不是系统2人工智能的产生方式,而是系统2人工智能的产生结果。

而有监督学习,包括深度学习,无论方法如何繁复,其本质都是一样的,就是在大量输入输出数据中找出一个能够较好拟合输入对应输出的函式。这使得在训练集能较好地代表整个数据集的分布时,有监督学习能取得较好的结果。而训练集无法代表整个数据集时,会大大降低有监督学习的效果。这也是有监督学习中数据处理往往占据最重要地位的原因。要想在有监督学习中取得更精确的效果,就必须获取更多的数据进行训练,这些数据往往都需要人工进行标注。有监督学习的学习结果类似于我们人类进行大量训练后在相似情景下第一直觉做出的反应,并没有超出系统1人工智能的范畴。此外,有监督学习还有一个巨大的隐患就是当其遇到与训练集差别巨大的数据时,其输出结果极为不可控(例如特斯拉事故)。

那么,强化学习能否产生更人性化的智能呢?

f2dca8af29437004e7cf8e0cb79dee64.png

强化学习的优势与不足

从理论上看,强化学习中计算机通过与环境进行交互获得的奖赏指导行为,更类似于我们人类的学习方式,而且AlphaZero及其他强化学习模型的成功应用似乎也证实了这一点。强化学习的学习过程为设计奖励函数、模型进行训练、按照奖励结果进行自我调整,比起深度学习模型来说,确实更有主动学习的味道。目前围绕深度强化学习的一些实验已经取得了一定的成功,可以教会深度强化学习智能体玩一些电子游戏和棋类游戏。但是将深度强化学习的任何成果转移到现实世界的生产系统中,却无一例外都失败了。这是为什么呢?

b120f63befead6b4401004f6c1abd970.png

强化学习,图片来源@知乎

举一个现实点的例子。假设你需要教会机械臂帮你叠衣服,你该如何写一个奖励函数来奖励或惩罚它呢?当你向另一个人描述这一点很容易,你可以说“把这堆衣服叠整齐”。但是,计算机并不理解“整齐”是什么意思。对于每个步骤,都必须用一种计算机能够自己衡量进展的方式来设计奖励函数,而不需要知道它实际在做什么。因此,可能会从机械臂触摸裤子开始奖励,然后机械臂抓住裤子或者移动裤子就奖励更多的分数。接下来实际的折叠动作这块,该如何奖励呢?叠三折可以得到奖励吗?不起皱的话,奖励怎么算?

看到问题的关键出在哪里了吗?奖励函数的设计。针对游戏、棋类这种人类定义好规则的行为,我们当然可以轻易地设定好奖励函数来训练模型。但是针对现实中的、非人类预定好的各种情况,想要设计奖励函数需要从环境中抽象出规则,抽象的这个过程需要人类智能的参与。比如叠衣服中的“整齐”,人类有智能可以轻松理解整齐的含义,但计算机不理解,就需要人类通过自己的智能将“整齐”的各种规则抽象成奖励函数。要想解决这个问题需要计算机能自己从环境中进行规则抽象,例如让计算机理解“整齐”的含义,而这又跟无监督学习一样,强化学习成了系统2人工智能的产生结果,而非系统2人工智能的产生方式。因此强化学习也很难真正成为AI未来的发展道路,只能在有明确奖励机制的问题中发光发热。

b09d2d2da2ab87d01cffbdec79642b6b.png

符号系统的介绍与AI的未来发展

以数据的对象、存储以及应用来说,无论是神经系统还是符号系统,数据建模的目的都是求解给定输入问题的答案。而符号系统主要支持结构化的查询、推理引擎等,能够实现复杂问题的求解,用来处理离散的、结构性的表示、操作以及知识(包括图结构、变量、递归和指代等),具有清晰、精确、高执行效率、可解释的优点。可以认为结构化数据库是目前符号系统的最典型应用。ACM图灵奖获得者Leslie Valiant曾精辟地指出:神经系统侧重对数据特征的学习过程,而符号系统包含的一定是一个搜索过程,后续大量面向符号系统的研究本质上致力于各种高效的搜索算法。

95fd0387405e309e7136d380d968552e.png

符号系统,图片来源@百度学术

总的来说,符号系统具有完备的推理过程和良好的可解释性,而“神经+符号”系统无疑是人工智能的理想模型。一个完美的“神经+符号”系统应该具有以下特点和优势:可以轻松处理目前主流机器学习擅长的问题;对于数据噪音有较强的鲁棒性;系统的求解过程和结果容易被人理解、解释和评价;可以很好地对各类符号进行操作;可以无缝地利用各种背景知识。然而,实现“神经+符号”的有机结合并不容易。目前而言,“神经+符号”的结合工作主要可以分为神经助力符号和符号助力神经两类,仍停留在仅以一方为主,并到另一方问题的适用或迁移,实现“神经+符号”真正有机结合的系统还任重道远。

现如今,AI的研究领域仍以深度学习为代表的有监督学习为主,实现各种交叉领域的系统1人工智能。但随着对人工智能研究的愈加深入,有越来越多的人意识到了深度学习模型的一些问题和局限性。笔者并不能确定神经网络+符号系统的研究方向一定是对的,但就目前而言,结合神经与符号的方向值得我们去开拓和探索。哪怕最后不能取得满意的效果,相信也会在让AI具有推理能力的问题上取得进展。

参考链接:

https://www.51cto.com/article/627025.html
https://www.afenxi.com/116462.html
https://www.jiqizhixin.com/articles/101402
https://www.infoq.cn/article/RHWNI4h2x3Ao7I0exHMl
https://zhuanlan.zhihu.com/p/235270477
https://zhuanlan.zhihu.com/p/87153966
https://zhuanlan.zhihu.com/p/375549477
https://zhuanlan.zhihu.com/p/158896481
https://blog.keras.io/the-limitations-of-deep-learning.html

f1d70cb8c16adb80f8be63b78dd45601.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值