深度学习的局限性

深度学习:几何视图

深度学习最令人惊讶的事情是它是如此简单。十年前,没有人期望我们通过使用经过梯度下降训练的简单参数模型来在机器感知问题上取得如此惊人的成绩。现在,事实证明,您需要的是足够大的参数模型,这些模型在许多示例上都经过了梯度下降训练。正如费曼曾说关于宇宙,“它并不复杂,它只是很多”。

在深度学习,所有东西都是向量,即一切都是一个点的几何空间。首先将模型输入(可能是文本,图像等)和目标“向量化”,即变成一些初始输入向量空间和目标向量空间。深度学习模型中的每一层都对经过它的数据进行简单的几何变换。模型的层链在一起构成了一个非常复杂的几何变换,分解为一系列简单的几何变换。这种复杂的转换尝试一次将输入空间映射到目标空间。该转换由各层的权重参数化,这些权重根据模型当前的运行状况进行迭代更新。这种几何变换的一个关键特征是它必须是可微的,这是我们能够通过梯度下降学习其参数所必需的。直观地讲,这意味着从输入到输出的几何变形必须平滑且连续,这是一个很大的约束。

将这个复杂的几何变换应用于输入数据的整个过程可以通过想象一个试图解开纸球的人在3D中可视化:弄皱的纸球是模型开始的输入数据的流形。人在纸球上进行的每个动作类似于由一层进行的简单几何变换。完整的手势姿势是整个模型的复杂转换。深度学习模型是一种数学机器,用于分解复杂的高维数据流形。

这就是深度学习的魔力:将意义转化为矢量,几何空间,然后逐步学习将一个空间映射到另一个空间的复杂几何变换。您只需要足够高的空间即可捕获原始数据中关系的全部范围。

深度学习的局限性

可以通过这种简单策略实现的应用程序空间几乎是无限的。但是,即使有大量的人工注释数据,对于当前的深度学习技术,还有许多其他应用程序完全无法实现。举例来说,假设您可以组合一个由产品经理撰写的包含软件产品功能的数十万甚至数百万个英语描述的数据集,以及由一个开发团队开发的相应源代码工程师可以满足这些要求。即使有了这些数据,您也无法训练深度学习模型以简单地阅读产品描述并生成适当的代码库。那只是许多例子中的一个。通常,任何需要推理的东西(例如编程或应用科学方法),长期计划和类似算法的数据处理,对于深度学习模型都是无法实现的,无论您向它们扔了多少数据。甚至使用深度神经网络学习排序算法都非常困难。

这是因为深度学习模型“只是” 一系列简单,连续的几何变换,将一个向量空间映射到另一个向量空间。它所能做的就是将一个数据流形X映射到另一个流形Y中,假设存在从X到Y的可学习的连续变换,并且可以获得X:Y 的密集采样用作训练数据。因此,即使可以将深度学习模型解释为一种程序,相反,大多数程序也不能表示为深度学习模型 -对于大多数任务,要么不存在解决任务的相应实用尺寸的深度神经网络,要么即使存在一个,可能是无法学习的,即相应的几何变换可能过于复杂,或者可能没有适当的数据可用于学习它。

通过堆叠更多的层并使用更多的训练数据来扩展当前的深度学习技术只能从表面上缓解这些问题。它不会解决更根本的问题,即深度学习模型的表示能力非常有限,并且人们可能希望学习的大多数程序都不能表示为数据流形的连续几何变形。

拟人化机器学习模型的风险

当代AI的一个非常现实的风险是误解了深度学习模型的作用,并高估了它们的能力。人类思维的基本特征是我们的“思维理论”,即我们倾向于对周围事物表达意图,信念和知识。在我们的脑海中,在岩石上绘制笑脸突然使它变得“快乐”。应用于深度学习,这意味着,例如,当我们能够成功地训练模型以生成用于描述图片的标题时,我们就被认为是该模型“理解”了图片的内容以及标题它产生。然后,当与训练数据中存在的图像类型的任何轻微偏离导致模型开始生成完全荒谬的字幕时,我们将感到非常惊讶。
在这里插入图片描述

尤其是,这通过“对抗性示例”来突出显示,这些示例是深度学习网络的输入样本,旨在使模型误分类。您已经知道,可以在输入空间中进行梯度上升以生成使某些卷积滤波器最大化激活的输入,例如,这是我们在第5章(注意:深度学习)中引入的滤波器可视化技术的基础。用Python),以及第8章中的Deep Dream算法。类似地,通过渐变上升,可以稍微修改图像以使给定类别的类别预测最大化。通过给熊猫拍照并添加“长臂猿”渐变,我们可以得到一个神经网络将该熊猫分类为长臂猿。这证明了这些模型的脆弱性,以及它们所操作的输入到输出映射与我们自己的人类感知之间的深刻差异。

一个对抗性的例子:图像中不可察觉的变化会颠覆模型对图像的分类。
在这里插入图片描述
简而言之,深度学习模型对其输入没有任何了解,至少在任何人类意义上都不如此。我们自己对图像,声音和语言的理解是建立在我们作为人(作为体现在世间的生物)的感觉运动体验中的。机器学习模型无法获得此类体验,因此无法以任何与人类相关的方式“理解”它们的输入。通过注释大量训练示例并输入到我们的模型中,我们使他们学习了几何变换,该变换将数据映射到这组特定示例上的人类概念,但是这种映射只是我们脑海中原始模型的简化图,它是根据我们作为具体主体的经验而开发的,就像镜子中的昏暗图像。

当前的机器学习模型:就像镜子中的昏暗图像。
在这里插入图片描述
作为一名机器学习从业者,请始终牢记这一点,不要陷入相信神经网络能够理解其执行的任务的陷阱—他们至少不会以我们认为有意义的方式这样做。与我们要教给他们的任务相比,他们接受的培训更窄,范围更窄:仅将培训输入逐点映射到培训目标。向他们展示任何偏离他们训练数据的东西,他们将以最荒谬的方式破裂。

局部概括与极端概括

深度学习模型所做的从输入到输出的直接几何变形与人类思考和学习的方式之间似乎仅存在根本差异。人们不仅可以从具体的经验中学到东西,还可以为他们提供明确的训练实例,这不仅是事实。除了不同的学习过程外,基本表示的本质也存在根本差异。

人类不仅具有将即时刺激映射到即时反应的能力,例如深网或昆虫。他们维护着自己,他人和他人当前状况的复杂抽象模型,并且可以使用这些模型来预测不同的未来前景并执行长期计划。他们能够将已知的概念融合在一起,以代表他们从未体验过的东西,例如,想象一下穿着牛仔裤的马匹,或者想象如果中奖了该怎么办。这种处理假设的能力,扩展了我们的心理模型空间,远远超出了我们直接可以体验到的范围,可以执行抽象和推理可以说是人类认知的定义特征。我称其为“极端概括”:一种适应新颖的能力,使用很少的数据甚至根本不使用任何新数据,这是以前从未经历过的。

这与深网的工作形成了鲜明的对比,我将其称为“局部概括”:如果新输入与训练时所看到的略有不同,则深网执行的从输入到输出的映射将很快停止。例如,考虑学习适当的发射参数以使火箭降落在月球上的问题。如果您要使用深网来执行此任务,则无论是使用监督学习还是强化学习进行训练,都需要为它提供数千甚至数百万次的发射试验,即需要将其暴露于密集的样本中为了了解从输入空间到输出空间的可靠映射。相比之下,人类可以利用其抽象能力提出物理模型(火箭科学),并得出精确的解决方案,只需一次或几次试验就能将火箭送上月球。同样,如果您开发了控制人体的深网,并希望它学习如何安全地在城市中航行而不会受到汽车的撞击,则在各种情况下,该网将不得不死亡数千次,直到可以推断出汽车和危险的物体。 ,并制定适当的回避行为。进入一个新城市,网络将不得不重新学习大部分已知信息。另一方面,人类又可以假设一次情况的抽象建模能力,而不必死一次就能学会安全的行为。

局部概括与极端概括。

在这里插入图片描述

简而言之,尽管我们在机器感知方面取得了进步,但我们离人类水平的AI仍然相距甚远:我们的模型只能执行局部泛化,适应必须与过去的数据保持非常接近的新情况,而人类认知则可以进行极端泛化,快速适应完全新颖的情况,或者非常适合长期的未来情况。

Take-aways

您应该记住以下几点:深度学习的唯一真正成功是在给定大量人工注释数据的情况下,使用连续几何变换将空间X映射到空间Y的能力。做到这一点对几乎每个行业来说都是一个改变游戏规则的事情,但是距离人类级AI尚很遥远。

为了消除这些局限性并开始与人脑竞争,我们需要从简单的输入到输出映射,转而进行推理和抽象。用于对各种情况和概念进行抽象建模的可能合适的基质是计算机程序的基质。我们之前已经说过(请注意:在使用Python进行深度学习中),机器学习模型可以定义为“可学习的程序”。目前,我们只能学习属于所有可能程序的非常狭窄且特定的子集的程序。但是,如果我们能够以模块化和可重用的方式学习任何程序,该怎么办?让我们在下一篇文章中看到前进的道路。

您可以在此处阅读第二部分:深度学习的未来

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值