Geoffrey Hinton：深度学习的下一个大事件

原创

已于 2022-08-05 16:12:04 修改 · 1.1w 阅读

55 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #大数据 #dbcp #编程语言 #计算机视觉

于 2022-08-02 08:04:08 首次发布

来源｜The Robot Brains Podcast

翻译｜胡燕君、沈佳丽、程浩源、许菡如、贾川

在当今享誉世界的AI科学家中，深度学习教父Geoffrey Hinton也许拥有最为与众不同的研究思维——他喜欢按直觉行事，更倾向于运用类比，研究生涯中的神来之笔大都源自瞬间迸发的思维火花。

这与他本人的教育背景息息相关。他的本科专业是生理学和物理学，也读了哲学，拿到的却是心理学方向的学士学位以及AI专业的博士学位，这种庞杂的跨学科经历意味着开放的思维基础，让他的研究不会拘泥于形式化以及严谨的数理推演，而是拥有极具想象力的敏锐直觉和独特的研究品味。

人工神经网络的最大模仿对象无疑是人类大脑，这也是科学家探究智能的神秘起源。Hinton也是受此启发，他起初研究受限玻尔茨曼机，想借此弄清楚人类大脑如何工作，后来他顺其自然转向神经网络的传统的反向传播，直到2012年，他与学生Alex Krizhevsky、Ilya Sutskever提出的AlexNet成为深度神经网络崛起的开山之作。

在深度学习领域深耕半个世纪之久，可谓凭他一己之力支撑起了AI研究的半边天，但那些研究在很长一段时间里都相对不为人知。2019年，Geoffrey Hinton，与Yoshua Bengio、Yann LeCun共同获得了图灵奖，他的论文被引次数截止目前高达50多万次。

如今，Hinton认为，深度学习这种非常成功的范式将继续保持繁荣。不过，引领深度学习向前迈进的不再是反向传播，基于他对人类大脑工作机制的持续研究，他窥探到深度学习发展的下一个大事件：脉冲神经网络的学习算法。

这一次，他的研究直觉还会在未来得到验证吗？

最近，在Pieter Abbeel主持的The Robot Brains Podcast节目中，他深入表达了对大脑工作机制、脉冲神经网络、大规模模型、玻尔兹曼机、t-SNE技术的见解。以下是对话内容，由OneFlow社区编译。

大脑工作机制的最新研究进展

Pieter Abbeel：近期让你彻夜难眠的三个问题是什么？

Geoffrey Hinton：第一，司法部长什么时候才能有点作为，因为时间不多了，这是让我最担心的问题；第二，我们该如何应对像普京这样拥有核武器的人；最后，大脑是否使用反向传播（Back Propagation）。

Pieter Abbeel：你花了很长时间研究大脑的工作原理，进展如何？

Geoffrey Hinton：这是一件富有成效的事情，我总是坚信会在未来五年内弄清这个问题。我们正在越来越接近答案，但同时我也确信大脑中不存在反向传播。我认为，现有的人工智能底层技术原理与大脑的工作原理截然不同，但从高层次来看它们又是相同的，它们都有很多参数——即神经元之间的权重，我们可以通过大量的训练样本来调参。

大脑和深度学习都会涉及到大量的参数，问题是，我们怎样才能得到调整这些参数的梯度。我们需要一些标准来判定结果是否理想，如果结果不理想就需要调整参数，从而优化对目标的预测。目前我认为，虽然反向传播是当下深度学习普遍采用的一种工作机制，但这与大脑中的运作机制非常不同，大脑计算梯度的方法另有其他。

Pieter Abbeel：近期，你也宣称大脑的工作机制并非反向传播，而是更接近玻尔兹曼机，你认为玻尔兹曼机架构是一种可行的AI模型，还是一种表现大脑工作机制的理论模型？

Geoffrey Hinton：归根结底，如果大脑的工作机制类似反向传播，那么它如何获取梯度信息呢？这就是NGRAD

（https://brainscan.uwo.ca/research/cores/computational_core/uploads/11May2020-Lillicrap_NatNeuroRev_2020.pdf）（neural gradient representation by activity differences，简称NGRAD）算法理论的核心，它用神经活动差异来表示误差导数，也即用时间导数来表示误差导数。不过，我现在不太相信这个假设了。

玻尔兹曼机原理很简洁，我对它的看法也在不断变化，现在我对它秉持部分认可的态度。玻尔兹曼机模型包含马尔可夫链，需要对称权重，这似乎并不合理，但另一方面，玻尔兹曼机运用对比学习，它更像一个生成对抗网络（GAN）而不是典型的无监督对比学习。

在无监督对比学习中，你要求来自同一张图像的两个图片块（crop）要有相似的表征，来自不同图像的两个图片块要有不太相似的表征。而在玻尔兹曼机中，你要求正数据（positive data）产生低能量，负数据（negative data）产生高能量（这里的数据指单个图像，而不是图像对或其它）。所以，如果要让无监督对比学习变得可行，需要像玻尔兹曼机那样有两个阶段。

第一阶段，需要找出正数据的结构，这里指的不是成对的图像块的结构，而是整张图像的结构，需要找到本地提取和语境预测之间的本质共同点；第二阶段的做法则不同，首先要有负数据，它非常接近真实图像，但却有细微的差异。然后，你要求刚刚在正数据中得到的结构不能出现在负数据中，即正数据的结构须为正数据所独有，因为神经网络自身的前端连接（wiring）可能会导致从正数据和负数据得出的结构一致，但通过上述做法，就可以保证得出的数据结构不受神经网络连接的影响。

这是我认可玻尔兹曼机的一个方面，但我认为，利用马尔可夫链生成负数据的方法过于复杂，而且低效，所以我们需要另找一个生成负数据的方式。

这就很像生成对抗网络。在生成对抗网络中，先输入真实数据，生成模型会生成负数据，然后判别器会通过判断其是否具有正数据独有的结构，来判定数据的真伪。我希望用判别器的内部表征作为生成模型，用以生成负例，从而训练判别器。

因此，我现在的想法介于生成对抗网络和玻尔兹曼机之间，不是通过马尔可夫链生成数据，而是通过直接生成模型，毕竟后者要简单许多。此外，我还设想同时存在一个判别器和另一个直接生成模型用以学习，让生成的负例样本更逼真。

Pieter Abbeel：原则上，这并不冲突，因为生成对抗网络可以被重写成基于能量的模型（energy-based model），前者只是后者的其中一种形式。

Geoffrey Hinton：没错。不过在生成对抗网络中，你从顶部的随机数据中生成新数据，难以完全覆盖，因为存在很多永远不会生成的数据。但如果你从判别器的顶层再次生成，就可以达到良好的覆盖。

2006年，我与Simon Osindero和Yee-Whye Teh发表了一篇关于神经计算中的唤醒-睡眠（wake-sleep）算法的论文（https://www.cs.toronto.edu/~hinton/absps/fastnc.pdf）。该算法没有用到反向传播，却有良好的学习效果。它用的是对比唤醒-睡眠算法，之所以称为“对比（contrastive）”，是因为包含两方面，首先是识别，这属于调整权重阶段；其次是生成，但不是根据随机数据生成，而是根据识别时获得的数据生成，这样就可以得到不错的覆盖。

Pieter Abbeel：你在一篇论文曾称，可以通过反向传播训练神经网络。现在几乎所有人的研究都是采用反向传播机制，但你现在却说，我们或许应该换种方法才能更接近大脑的工作方式。某种程度上，是否可以认为反向传播机制可能会比大脑的工作方式更优？

Geoffrey Hinton：首先，我需要纠正的是，我确实和David Rumelhart、Ronald Williams一起写了一篇关于反向传播的高被引论文，但是反向传播算法在此之前就有了，我们只是重新使用并且证明了它可以学习到一些有趣的表征，例如词嵌入（Word Embedding），但并非由我们发明了反向传播算法。

我认为反向传播可能比大脑的类似工作机制的效率更高，它将海量的信息压缩到几十亿个神经元连接中。要知道，大脑拥有多达数百万亿个神经元连接，这也导致它的连接成本很低，但使用的经验（训练数据）却很少，也就是大脑投入了大量参数，却只需要少量经验。

但人工神经网络却恰恰相反，它拥有充足的经验（训练数据）却只需要很少参数，我们试图找出影响输入与输出之间关系的信息，并将其添加到参数中。所以我认为，反向传播比大脑的工作方式更高效，但前者可能不擅长从少量数据中抽象出大量结构。

Pieter Abbeel：在这方面，你是否设想过有没有其他获得更优性能的方法？

Geoffrey Hinton：我一直认为这需要无监督的目标函数，尤其是针对感知学习，这很关键。如果你可以根据物理世界抽象出一个模型，那么就可以基于该模型而不是原始数据来调整自己的行为，这样就更容易找到正确的方法。