Geoffrey Hinton接受Sana Labs专访
★内容导读:这段访谈中,Geoffrey Hinton 回顾了他漫长的研究生涯,并谈论了人工智能的未来。Hinton 认为:
深度学习的成功证明了简单算法和大规模数据的威力,这与 Chomsky 等人认为的需要大量先天结构的观点相悖。
类比是理解和创造力的关键,大型语言模型通过发现不同事物之间的共同结构来进行类比。
多模态学习将是 AI 的下一个重要阶段,它将使模型能够更好地理解空间关系和物理世界。
大脑很可能使用某种形式的反向传播算法来进行学习,但具体机制仍不清楚。
AI 将对医疗保健、材料科学等领域产生巨大影响,但也可能被用于恶意目的。
AI 研究应集中于开发更强大的学习算法和探索新的计算架构,例如模拟大脑的多时间尺度学习机制。
★金句摘录:
伊利亚总是鼓吹,你只要把它做大,它就会做得更好。我一直认为这有点推卸责任,你必须也要有新的想法。事实证明伊利亚基本上是对的。新想法确实有帮助,比如 Transformer 就很有帮助,但真正重要的是数据的规模和计算的规模。
理解就是知道如何将符号转换成这些向量,并知道向量的元素应该如何相互作用来预测下一个符号的向量。这就是大型语言模型和我们大脑中的理解方式。
而符号的唯一属性是它与另一个符号相同或不相同。这就是符号的唯一属性。我们根本不这样做。我们使用上下文为符号提供嵌入向量,然后使用这些嵌入向量组件之间的交互来进行思考.
现在也是过去 30 年来我一直思考的问题,那就是大脑是否进行反向传播?我相信大脑正在获得梯度。
嘉宾Geoffrey Hinton介绍:
Geoffrey Hinton是一位加拿大计算机科学家,人工智能 (AI) 和机器学习领域的先驱。他于 1947 年 12 月 6 日出生于英国伦敦,他对深度学习(机器学习的一个子领域,如今广泛应用于 AI 应用)的发展做出了重大贡献。
Hinton 于 1968 年获得不列颠哥伦比亚大学物理学学士学位,并于 1978 年获得加州大学圣地亚哥分校实验心理学博士学位。他于 1987 年开始了在多伦多大学的学术生涯,目前是该校计算机科学系的荣誉退休教授。
Hinton 的研究重点是理解人脑如何学习以及如何将这些原理应用于开发更智能的机器。他尤其以其在深度神经网络方面的工作而闻名,深度神经网络是一种能够学习数据中复杂模式的机器学习算法。Hinton 的工作促进了计算机视觉、语音识别和自然语言处理等领域的重大进步。
Hinton 因其对人工智能的贡献获得了无数奖项和荣誉,包括 2018 年的图灵奖(通常被称为“计算领域的诺贝尔奖”)。他还被《麻省理工科技评论》评选为人工智能领域最具影响力的人物之一。
纵观他的职业生涯,Hinton 与人工智能领域的许多杰出研究人员合作,包括 Yann LeCun 和 Yoshua Bengio,他与他们合著了 2006 年关于深度学习的开创性论文。他的工作对人工智能的发展产生了深远的影响,并激励了许多研究人员投身于该领域。
访谈正文
访谈者:你有没有认真思考过如何挑选人才?或者这对你来说 mostly 是凭直觉?比如 Ilja 出现,你就觉得,这家伙很聪明,我们一起工作吧。或者你有没有认真考虑过这个问题?
Hinton:我记得我刚从英国到卡内基梅隆大学的时候。在英国的一个研究单位,到六点钟,大家都会去酒吧喝一杯。我记得我在卡内基梅隆大学待了几个星期后,一个星期六的晚上,我还没有朋友,也不知道该怎么办。所以我决定去实验室编程,因为我有一台 LISP 机器,而你不能在家里用它编程。所以我在星期六晚上九点左右去了实验室,那里人山人海。所有的学生都在那里。他们在那里是因为他们在做的事情是未来。他们都相信他们接下来做的事情将会改变计算机科学的进程。这与英国的情况截然不同。所以这让人耳目一新。
访谈者:让我们回到最开始。Jeff 在剑桥,试图理解大脑。那是什么样子的?
Hinton:那非常令人失望。我学的是生理学,在夏季学期,他们要教我们大脑是如何工作的。他们只教了我们神经元如何传导动作电位,这很有趣,但这并不能告诉你大脑是如何工作的。所以这非常令人失望。然后我转学了哲学。我想也许他们会告诉我们心灵是如何运作的。但那也很令人失望。我最终去了爱丁堡大学学习人工智能。那更有趣一些。至少你可以模拟事物。所以你可以测试理论。
访谈者:你还记得是什么让你对人工智能产生了兴趣吗?是一篇论文?还是某个让你接触到这些想法的人?
Hinton:我想是唐纳德·赫布写的一本书对我影响很大。他对神经网络中如何学习连接强度非常感兴趣。我很早就读了约翰·冯·诺依曼写的一本书,他对大脑如何计算以及它与普通计算机的不同之处非常感兴趣。
访谈者:你有没有想过这些想法会以这种方式奏效?你在爱丁堡大学的时候是怎么想的?
Hinton:在我看来,大脑一定有办法学习。很明显,这不是通过把所有东西都编程到大脑里,然后使用逻辑推理规则来实现的。从一开始,我就觉得这很疯狂。所以我们必须弄清楚大脑是如何学习修改神经网络中的连接,从而完成复杂的任务的。冯·诺依曼相信这一点。图灵也相信这一点。冯·诺依曼和图灵都非常擅长逻辑,但他们不相信这种逻辑方法。
访谈者:你如何分配时间在研究神经科学的理念和仅仅做那些看起来对人工智能有益的算法之间?你在早期从神经科学中获得了多少灵感?
Hinton:我从来没有做过那么多神经科学方面的研究。我一直受到我所学到的关于大脑如何运作的知识的启发。大脑中有一堆神经元。它们执行相对简单的操作。它们是非线性的,但它们收集输入,对它们进行加权,然后根据加权后的输入给出输出,问题是,你如何改变这些权重,使整个系统做一些好的事情?这似乎是一个相当简单的问题。
访谈者:你还记得那段时间有哪些合作吗?
Hinton: 我在卡内基梅隆大学的主要合作对象其实并不在卡内基梅隆大学。我和在巴尔的摩约翰霍普金斯大学的特里·萨诺夫斯基有很多互动。我们大约每个月都会见一次面,要么他开车来匹兹堡,要么我开车去巴尔的摩。我们单程距离有 250 英里。我们会在一起度过一个周末,研究玻尔兹曼机。那是一次很棒的合作。我们都相信这就是大脑的工作原理。
那是我做过的最激动人心的研究。我们从中获得了很多非常有趣的技术成果。但我现在认为这不是大脑的工作原理。我还和彼得·布朗有过非常愉快的合作,他是一位非常优秀的统计学家。他在 IBM 从事语音识别工作。后来,他作为一个比较成熟的学生来到卡内基梅隆大学攻读博士学位。但他已经懂得很多东西了。他教会了我很多关于语音的知识。事实上,是他教会了我隐马尔可夫模型。我想我从他身上学到的东西比他从我身上学到的要多。这才是你想要的学生。
当他教我隐马尔可夫模型时,我正在用隐藏层进行反向传播。只是当时它们不叫隐藏层。我认为他们在隐马尔可夫模型中使用的名称,对于那些你不知道它们在做什么的变量来说,是一个很棒的名称。所以这就是神经网络中“隐藏”这个词的由来。我和彼得认为这是神经网络中隐藏层的绝佳名称。但我从彼得那里学到了很多关于语音的知识。
访谈者: 能不能带我们回到伊利亚出现在你办公室的那一刻?
Hinton: 我当时在我的办公室,可能是个星期天,我应该是在编程。有人敲门。不是普通的敲门声,而是那种……有点急促的敲门声。我去开门,看到一个年轻的学生站在那里。他说他整个夏天都在炸薯条,但他更愿意在我的实验室工作。我说,那你为什么不预约一下,我们谈谈?他直接说,就现在怎么样?这就是伊利亚的性格。于是我们就聊了一会儿。我给了他一篇论文让他读,就是那篇关于反向传播的《自然》杂志论文。我们约好一周后再见面。他回来后说,我没看懂。我当时非常失望。我以为他是个聪明的孩子,但这只是链式法则而已。应该不难理解。他说,不,不,我明白链式法则。我只是不明白你为什么不把梯度给一个合理的函数优化器,这个问题我们花了好几年时间才想明白。事情就是这样发展的。他非常优秀,他对事物的原始直觉总是非常好。
访谈者: 你认为是什么让伊利亚拥有了这些直觉?
Hinton: 我不知道。我认为他总是独立思考。他从小就对人工智能很感兴趣。他显然很擅长数学。
访谈者: 你们之间的合作是什么样的?你扮演什么角色,伊利亚扮演什么角色?
Hinton: 那段日子很有趣。我记得有一次,我们试图用一个混合模型来制作数据地图,这很复杂。所以你可以用同一组相似度来制作两张地图,这样在一张地图中,“银行”(bank)可以靠近“贪婪”,而在另一张地图中,“河岸”(bank)可以靠近“河流”。因为在一张地图中,你不可能把它同时靠近这两个词,对吧?因为“河流”和“贪婪”离得很远。所以我们要做一张混合地图。我们当时在用 MATLAB 做这个,这需要对代码进行大量的重组,才能进行正确的矩阵乘法。然后他就受够了。有一天,他过来跟我说,我要给 MATLAB 写一个接口。我用这种不同的语言编程。然后我用一个东西把它转换成 MATLAB。我说,别这样,伊利亚,这会花你一个月的时间。我们得继续做这个项目。别被这个事情耽误了。伊利亚说,没关系,我今天早上已经做好了。
访谈者: 这太不可思议了。在过去这些年里,最大的变化不一定是算法本身,还有规模。你是如何看待这些年来规模的变化的?
Hinton: 伊利亚很早就有了这种直觉。所以伊利亚总是鼓吹,你只要把它做大,它就会做得更好。我一直认为这有点推卸责任,你必须也要有新的想法。事实证明伊利亚基本上是对的。新想法确实有帮助,比如 Transformer 就很有帮助,但真正重要的是数据的规模和计算的规模。那时候我们根本不知道计算机的速度会提高 10 亿倍。我们以为它们的速度可能会提高 100 倍。我们当时试图想出一些巧妙的方法,如果我们有更大的数据和计算规模,这些方法就能自行解决问题。大约在 2011 年,我和伊利亚以及另一位名叫詹姆斯·马丁斯的的研究生写了一篇关于字符级预测的论文。我们用维基百科的数据,试图预测下一个 HTML 字符,结果效果非常好。我们一直对它的效果感到惊讶。我们使用的是 GPU 上的一种高级优化器。
我们一直不敢相信它真的理解了,但它看起来确实像是理解了。这看起来太不可思议了。
访谈者: 你能给我们解释一下,这些模型是如何被训练成可以预测下一个词的吗?为什么说这种想法是错误的?
Hinton: 其实我不认为这是错误的想法。事实上,我认为是我第一个提出了使用嵌入和反向传播的神经网络语言模型。数据很简单,就是三元组。它将每个符号转换成一个嵌入向量,然后让这些嵌入向量相互作用,以预测下一个符号的嵌入向量。然后再根据预测结果预测下一个符号。然后,它通过反向传播整个过程来学习这些三元组。我证明了它可以泛化。大约 10 年后,Yoshua Bengio 使用了一个非常相似的网络,并证明了它可以处理真实的文本。又过了大约 10 年,语言学家们才开始相信嵌入向量。这是一个缓慢的过程。我认为它不仅仅是预测下一个符号,原因是,如果你问,预测下一个符号需要什么?特别是如果你问我一个问题,而答案的第一个词就是下一个符号,你必须理解这个问题。
这与老式的自动完成功能非常不同。老式的自动完成功能会存储单词的三元组。当你看到一对单词时,你会查看不同的单词出现在第三个位置的频率。这样你就可以预测下一个符号了。大多数人认为自动完成功能就是这样。但现在已经完全不是这样了。要想预测下一个符号,你必须理解之前说过的内容。所以我认为你是通过让它预测下一个符号来强迫它理解的。我认为它的理解方式和我们是一样的。很多人会告诉你,这些东西不像我们。它们只是在预测下一个符号。它们不像我们那样推理。但实际上,为了预测下一个符号,它必须进行一些推理。我们现在已经看到,如果你把它做得很大,即使不加入任何特殊的推理机制,它也已经可以进行一些推理了。我认为,随着你把它做得越来越大,它将能够进行越来越多的推理。
访谈者: 请问您认为我当前的学习,和刚才提到的预测下一个符号,有什么不同吗?
Hinton: 我认为你就是这样学习的,预测下一个视频帧,预测下一个声音。我认为这是一个非常合理的关于大脑如何学习的理论。
访谈者: 是什么促使这些模型能够学习这么多不同的领域?
Hinton: 这些大型语言模型所做的是寻找共同的结构。通过找到共同的结构,它们可以使用共同的结构对事物进行编码,这样效率更高。我举个例子,如果你问 GPT-4,“为什么堆肥堆像原子弹?”,大多数人无法回答这个问题,大多数人没有想过这个问题。他们认为原子弹和堆肥堆是截然不同的事物。但 GPT-4 会告诉你,它们的能量规模和时间尺度都非常不同,但相同的是,当堆肥堆变热时,它会更快地产生热量;当原子弹产生更多中子时,它会更快地产生更多中子。因此,它理解了连锁反应的概念,并且我相信它理解了这两种形式的连锁反应。它利用这种理解将所有信息压缩到它的权重中。如果它正在这样做,那么它将会对数百件事这样做,而我们还没有看到这些类比,但它已经看到了。这就是创意的来源,从看似截然不同的事物之间看到这些类比。所以我认为,当 GPT-4 变得更大时,它最终会变得非常有创意。我认为,认为它只是在反刍它所学到的东西,只是在拼凑它已经学过的文本,这种想法是完全错误的。我认为它会比人类更有创造力。
访谈者: 你认为它不会仅仅重复我们迄今为止发展起来的人类知识,而是可以超越这一点。我认为这是我们还没有完全看到的东西。我们已经开始看到一些例子,但在很大程度上,我们仍然处于目前的科学水平。你认为是什么让它能够超越这一点?
Hinton: 嗯,我们在更有限的环境中已经看到了这一点。比如 AlphaGo,在那场与李世石的著名比赛中,AlphaGo 在第 37 步棋时走了一步棋,所有专家都说这一定是错误的。但实际上,后来他们意识到这是一步妙棋。所以在那个有限的领域内,这是有创造力的。我认为随着这些模型变得越来越大,我们会看到更多这样的例子。
访谈者: AlphaGo 的不同之处在于,它使用强化学习,随后使其能够超越当前状态。所以它从模仿学习开始,观察人类如何玩游戏,然后通过自我博弈发展到远远超过人类的水平。你认为这是当前大型语言模型所缺少的部分吗?
Hinton: 我认为这很可能是一个缺失的部分,是的。AlphaGo 和 AlphaZero 中的自我博弈是它能够做出这些创造性举措的重要原因。但我认为这并非完全必要。很久以前我做过一个小实验,训练一个神经网络来识别手写数字。我喜欢那个例子,MNIST 例子。你给它训练数据,其中一半的答案是错误的。问题是,它能学得多好?
你将一半的答案设置成错误的,并保持不变。所以它不能通过仅仅看到同一个例子,但有时答案正确,有时答案错误来消除错误。当它看到那个例子时,一半的情况下,答案总是错误的。因此,训练数据的错误率为 50%。但如果你训练反向传播,它的错误率会降到 5% 或更低。换句话说,从错误标记的数据中,它可以得到更好的结果。它可以看到训练数据是错误的。这就是为什么聪明的学生可以比他们的导师更聪明。他们的导师告诉他们所有这些东西,但对于导师告诉他们的一半内容,他们会想,“不,垃圾”。然后他们听另一半内容,最终变得比导师更聪明。所以这些大型神经网络实际上可以比它们的训练数据做得更好。大多数人没有意识到这一点。
访谈者: 那么你认为如何将推理能力添加到这些模型中呢?我的意思是,一种方法是在它们之上添加启发式方法,这是现在很多研究都在做的。我们有思维链,你只需将它的推理反馈给它本身。另一种方法是在模型本身中,当你扩展它的时候。你对此有什么直觉?
Hinton: 我的直觉是,随着我们扩展这些模型,它们的推理能力会越来越强。如果你问人们是如何工作的,粗略地说,我们有这些直觉,我们可以进行推理,我们使用推理来纠正我们的直觉。当然,我们在推理过程中使用直觉来进行推理,但如果推理的结论与我们的直觉相冲突,我们就会意识到直觉需要改变。这很像 AlphaGo 或 AlphaZero,你有一个评估函数,它只看棋盘,然后说,“这对我来说有多好?”但随后你进行蒙特卡洛模拟,现在你得到了一个更准确的想法,你可以修改你的评估函数。所以你可以通过让它与推理的结果相一致来训练它。我认为这些大型语言模型必须开始这样做。它们必须开始训练它们对接下来应该发生什么的原始直觉,方法是进行推理,并意识到这是不对的。通过这种方式,它们可以获得比仅仅模仿人们所做的事情更多的训练、更多的直觉和更多的训练数据。这也正是 AlphaGo 能够走出第 37 步棋的原因。它拥有更多的训练数据,因为它使用推理来检查下一步棋应该是怎样的。
访谈者: 你对多模态有什么看法?我们谈到了这些类比,通常这些类比远远超出了我们所能看到的。它正在发现远远超出人类的类比,可能是在我们永远无法理解的抽象层次上。现在,当我们引入图像、视频和声音时,你认为这将如何改变这些模型?你认为这将如何改变它能够做出的类比?
Hinton: 我认为这将带来巨大的改变。例如,它将使模型在理解空间事物方面做得更好。仅从语言本身来理解某些空间事物是相当困难的,尽管GPT-4在成为多模态之前就已经可以做到这一点,但这很了不起。但是,当你使其成为多模态时,如果你让它既能看又能伸手抓取东西,那么如果它能够拿起物体并翻转它们等等,它就会更好地理解物体。因此,尽管你可以从语言中学到很多东西,但如果你是多模态的,学习起来会更容易。事实上,你之后需要的语言就会更少。YouTube上有大量的视频可以用来预测下一帧或类似的东西。所以我认为这些多模态模型显然将会占据主导地位。你可以通过这种方式获得更多的数据。它们需要的语言更少。所以这里有一个非常哲学的观点,你可以仅从语言本身学习到一个非常好的模型,但从多模态系统中学习要容易得多。
访谈者: 您认为这对于模型的推理有什么影响?
Hinton: 例如,我认为这将使它在空间推理方面做得更好。推理如果你拿起物体将会发生什么。如果你真的尝试拿起物体,你将会得到各种各样的训练数据来帮助你。
访谈者: 您认为是大脑进化从而更好适配语言,还是语言进化更好地去适配大脑?
Hinton: 我认为语言是为了配合大脑而进化,还是大脑是为了配合语言而进化,这个问题问得很好。我认为两者都发生了。我曾经认为我们可以在完全不需要语言的情况下进行大量的认知活动。现在我改变了我的想法。我将从三个不同的角度来阐述我对语言以及它与认知之间关系的看法。第一种是老式的符号观点,认为认知是由一些清晰的逻辑语言中的符号串组成,这些符号串没有歧义,并应用推理规则。这就是认知,仅仅是对类似于语言符号串的事物进行符号操作。这是一种极端的观点。而另一种截然相反的观点是,不,不,一旦你进入大脑内部,就会发现一切都是向量。符号输入进来,你将这些符号转换成大的向量,而内部的所有事情都是用大的向量完成的。然后,如果你想产生输出,你就会再次生成符号。大约在2014年,机器翻译领域出现了一个使用循环神经网络的时期,单词会不断地输入,它们会有一个隐藏状态,并且会不断地在这个隐藏状态中积累信息。所以当它们读到一个句子的末尾时,它们就会得到一个大的隐藏向量,这个向量捕捉了该句子的含义,然后就可以用来生成另一种语言的句子。这就被称为“思维向量”。这是对语言的第二种看法。你把语言转换成一个与语言毫无相似之处的巨大向量,而这就是认知的全部内容。但还有一种观点,也是我现在所相信的,那就是你把这些符号转换成嵌入,并使用多层嵌入。
这样你就得到了非常丰富的嵌入。但这些嵌入仍然与符号相关联,因为你为这个符号准备了一个大向量,为那个符号也准备了一个大向量。这些向量相互作用,生成下一个单词的符号向量。这就是理解。理解就是知道如何将符号转换成这些向量,并知道向量的元素应该如何相互作用来预测下一个符号的向量。这就是大型语言模型和我们大脑中的理解方式。
这是一个介于两者之间的例子。你仍然在使用符号,但你将它们解释为这些大向量。所有的工作和知识都在于你使用什么向量,以及这些向量的元素如何相互作用,而不是符号规则。但这并不是说你要完全抛弃符号。它指的是你把符号转换成大向量,但你仍然保留符号的表面结构。这就是这些模型的工作原理。现在看来,这对我来说也是一种更合理的人类思维模型。
访谈者: 您是最早想到使用GPU的人之一,我也知道老黄为此很喜欢您。回到2009,您提到曾告诉老黄用GPU训练神经网络是一个好主意。和我们分享一下当时您的这个直觉好吗。
Hinton: 事实上,我认为大约在2006年,我有一个以前的研究生叫Rick Zaliski,他是一个非常优秀的计算机视觉专家。我在一次会议上和他交谈。他说,你知道,你应该考虑使用图形处理器,因为它们非常擅长矩阵乘法。而你所做的基本上都是矩阵乘法。所以我考虑了一下。然后我们了解到这些Tesla系统,它们有四个GPU。最初,我们只是买了一些游戏GPU,发现它们可以让速度提高30倍。然后我们买了一个有四个GPU的Tesla系统,并用它来做语音识别,效果非常好。然后在2009年,我在NIPS上做了一个演讲。我告诉1000名机器学习研究人员,你们都应该去买NVIDIA的GPU,它们是未来,做机器学习需要它们。实际上,我后来还给NVIDIA发了邮件。我说,好吧,我告诉1000名机器学习研究人员去买你们的板子,能不能免费给我一块?他们没有回复我。准确地说,他们没有说“不”。但当我后来把这件事告诉Jensen的时候,他送了我一块。
访谈者: 这太棒了!我认为GPU本身随着人工智能领域的发展而不停演进,这本身也是很有趣的。您认为算力的演化方向是什么呢?
Hinton: 在 Google 的最后几年里,我一直在思考如何进行模拟计算。这样我们就可以不用像现在这样消耗兆瓦级的能量,而是像大脑一样只消耗 30 瓦左右的能量。我们可以在模拟硬件上运行这些大型语言模型。虽然我从未成功过,但这让我开始真正欣赏数字计算。因为如果你要使用低功耗的模拟计算,那么每个硬件都会有所不同。关键在于学习过程要利用硬件的具体特性,而这正是人类大脑的工作方式。我们的大脑各不相同,因此我们无法将你大脑中的权重直接放到我的大脑中,因为硬件不同,单个神经元的精确属性也不同,学习过程已经学会了如何利用所有这些差异。从这个意义上说,我们更强大,因为我大脑中的权重对其他任何大脑都没有用。当我死后,这些权重就毫无用处了。我们可以通过我生成句子,你来弄清楚如何改变你的权重以便说出同样的话,这种非常低效的方式来进行信息传递。这被称为蒸馏法。但这是一种非常低效的知识传播方式。而数字系统是“永生”的。因为一旦你获得了一些权重,你就可以把计算机扔掉,把权重存储在磁带上。然后,你可以再造一台计算机,把相同的权重放进去。如果是数字系统,它就能精确地计算出与另一台系统相同的结果。所以,数字系统可以共享权重。这在效率上要高得多。如果你有一堆数字系统,它们各自进行少量的学习,
并且它们都从相同的权重开始,进行少量的学习,然后再次共享它们的权重,这样它们就都知道了其他系统学习到的内容。我们人类做不到这一点。因此,在知识共享方面,它们远远优于我们。
访谈者: 该领域部署的许多想法都是非常老派的神经科学理念。您认为哪些理念可以应用到我们开发的系统中?
Hinton: 我们仍然需要在神经科学方面追赶的一个重要方面是变化的时间尺度。在几乎所有的神经网络中,活动的变化都有一个快速的时间尺度。输入进来,活动和嵌入向量都会发生变化。然后是一个缓慢的时间尺度,即权重的变化,这是长期学习。你只有这两种时间尺度。而在大脑中,权重的变化有多种时间尺度。例如,如果我说出一个意想不到的词,比如“黄瓜”,五分钟后你戴上耳机,听到很多噪音和非常微弱的词语,你会更容易识别出“黄瓜”这个词,因为我五分钟前刚说过。那么,这些知识存储在大脑的什么地方呢?显然,这些知识存在于突触的暂时性变化中。并不是说神经元一直在喊“黄瓜,黄瓜,黄瓜”,你没有足够的神经元来做这件事,而是权重的暂时性变化。你可以利用权重的暂时性变化做很多事情,我称之为“快速权重”。我们在这些神经模型中没有这样做,原因是如果权重的暂时性变化依赖于输入数据,那么你就无法同时处理大量不同的情况。目前,我们会获取一整串不同的字符串,将它们堆叠在一起,然后全部处理它们。我们可以并行处理,因为我们可以进行矩阵乘法,效率要高得多。正是这种效率的追求阻碍了我们使用快速权重。但很明显,大脑使用快速权重来进行临时记忆。还有很多事情可以用这种方式完成,而我们目前还没有做到。我认为这是我们必须学习的最重要的事情之一。我曾非常希望像 GraphCore 这样的公司,如果它们采用顺序处理的方式,只进行在线学习,那么它们就可以使用快速权重。
但目前还没有成功。我认为,当人们使用电导作为权重时,最终会实现的。
访谈者: 海量数据和深度学习的出现对您的想法有何影响?
Hinton: 我认为有一个很大的影响,是在一个相当抽象的层面上。多年来,人们一直对拥有一个大型随机神经网络并为其提供大量训练数据,使其能够学习做复杂的事情的想法嗤之以鼻。如果你与统计学家、语言学家或大多数人工智能领域的人交谈,他们会说这只是一个白日梦。如果不具备某种先天的知识,没有大量的架构限制,你不可能学会做真正复杂的事情。事实证明,这种想法是完全错误的。你可以构建一个大型随机神经网络,并且只从数据中学习到很多东西。因此,通过随机梯度下降法,利用梯度反复调整权重,就能够学习到东西,而且能够学习到复杂的东西,这一观点已经被这些大型模型所证实。这对大脑来说是一个非常重要的认识。它不需要具备所有这些先天的结构。当然,它确实有很多先天的结构,但对于那些容易学习的东西来说,它肯定不需要先天的结构。
因此,来自乔姆斯基的观点,即除非所有的东西都已经预先连接好并成熟,否则你不会学到像语言这样复杂的东西,这种观点现在显然是无稽之谈。
访谈者: 我相信乔姆斯基会很“高兴”你称他的想法是无稽之谈。
Hinton: 嗯,实际上,我认为乔姆斯基的很多政治观点都非常明智。我一直很惊讶,一个对中东问题有如此明智见解的人,怎么会对语言学有如此错误的认识。
访谈者: 您认为怎样才能让这些模型更有效地模拟人类的意识?想象一下,您拥有一个陪伴您一生的 AI 助手。它不像现在的 ChatGPT 那样每次都删除对话记忆,而是拥有自我反思的能力。在某个时刻,您去世了,并将这件事告诉了这位助手,您认为它会有感觉吗?
Hinton: 我是说,不是我,是别人告诉它,我的助手。
访谈者: 是的,您很难亲自将这件事告诉一位助手。您认为在这种情况下,这位助手会有感觉吗?
Hinton: 是的,我认为它们也可以有感觉。所以我认为,就像我们有一个关于感知的内心剧场模型一样,我们也有一个关于感觉的内心剧场模型。它们是我能体验到的,但其他人却不能体验到的东西。我认为这个模型同样是错误的。所以我想,假设我说,我想揍加里的鼻子,我经常这样想。让我们试着从内心剧场的概念中抽象出来。我真正想对你说的 是,如果不是来自我额叶的抑制,我会付诸行动。所以当我们谈论感觉时,我们实际上是在谈论如果不是因为限制,我们会做出的行动。这才是感觉的真正含义。它们是我们如果没有约束会做出的行动。所以我认为你可以对感觉给出同样的解释。而且没有理由说这些东西不能有感觉。事实上,在 1973 年,我看到一个机器人有情绪。在爱丁堡,他们有一个有两个像这样抓手的机器人,如果你把零件分开放在一块绿色的
毛毡上,它就可以组装一辆玩具车。但如果你把它们堆在一起,它的视力就不足以弄清楚发生了什么。所以它把抓手合在一起,然后,砰的一声。这一撞把它们撞得七零八落,然后它又把它们合在一起。如果你在一个人的身上看到这种情况,你会说它因为不理解情况而生气,所以它毁掉了它。
访谈者: 你认为你一生中发现的最有力的类比是什么?
Hinton: 哦,在我的一生中?我猜可能是一个对我影响很大的弱类比,那就是宗教信仰和对符号处理的信仰之间的类比。所以当我非常年轻的时候,我面临着,我来自一个无神论家庭,然后去上学,面对宗教信仰。这对我来说简直是无稽之谈。现在对我来说仍然是无稽之谈。当我看到符号处理作为对人们如何工作的解释时,我认为这完全一样。无稽之谈。
我认为现在已经不那么荒谬了,因为我认为实际上我们确实进行了符号处理。只是我们通过给这些符号赋予大的嵌入向量来实现。但我们实际上是在进行符号处理,但根本不像人们想象的那样,你匹配符号,而符号的唯一属性是它与另一个符号相同或不相同。这就是符号的唯一属性。我们根本不这样做。我们使用上下文为符号提供嵌入向量,然后使用这些嵌入向量组件之间的交互来进行思考。但谷歌有一位非常优秀的研究人员,名叫费尔南多-佩雷拉,他说,是的,我们确实有符号推理,而我们唯一的符号就是自然语言。自然语言是一种符号语言,我们用它进行推理。我现在相信这一点。
访谈者: 你在计算机科学史上做了一些最有意义的研究。你能给我们讲解一下,你是如何选择正确的问题来研究的吗?
Hinton: 嗯,首先,让我纠正你一下。我和我的学生们已经做了一些最有意义的事情。这主要得益于与学生们的良好合作,以及我选择优秀学生的能力。这是因为在 70 年代、80 年代、90 年代和 21 世纪初,很少有人研究神经网络。所以,少数几个研究神经网络的人可以选择最优秀的学生。所以这是一种幸运。但我选择问题的方式基本上是,你知道,当科学家们谈论他们是如何工作的时候,他们有关于他们是如何工作的理论,这些理论可能与事实相去甚远。但我的理论是,
我会寻找一些每个人都达成一致意见但感觉不对劲的东西。只是有一种轻微的直觉,觉得它有什么地方不对劲。然后我就开始研究这个问题,看看我是否能阐述为什么我认为它是错误的。也许我可以做一个小的计算机程序来演示它,表明它并不像你预期的那样工作。我举一个例子。大多数人认为,如果你给神经网络添加噪声,它的效果会更差。例如,每次你输入一个训练样本时,你都让一半的神经元保持沉默,它的效果会更差。实际上,我们知道如果你这样做,它的泛化能力会更好。你可以在一个简单的例子中证明这一点。
这就是计算机模拟的好处。你可以证明,你知道,你认为添加噪声会使它变得更糟,而剔除一半的神经元会使它变得更糟的想法,从短期来看确实如此。但如果你这样训练它,最终它会工作得更好。你可以用一个小程序来证明这一点,然后你可以认真思考为什么会这样,以及它是如何阻止大的、复杂的共同适应的。但我认为,这就是我的工作方法。找到一些听起来可疑的东西,然后研究它,看看你是否能简单地证明它是错误的。
访谈者: 你现在觉得什么听起来可疑?
Hinton: 嗯,我们不使用快速权重听起来很可疑,我们只有这两种时间尺度。这绝对是错误的。这跟大脑一点也不像。从长远来看,我认为我们将不得不拥有更多的时间尺度。这就是现在的例子。
访谈者: 如果你今天有你的学生团队,他们来找你说,就像我们之前谈到的汉明问题一样,你所在领域最重要的问题是什么?你会建议他们接下来接受并研究什么问题?我们谈到了推理、时间尺度,你会给他们什么样的最高优先级问题?
Hinton: 对我来说,现在也是过去 30 年来我一直思考的问题,那就是大脑是否进行反向传播?我相信大脑正在获得梯度。如果你没有得到梯度,你的学习效果就会比得到梯度差得多。但大脑是如何获得梯度的呢?它是否以某种方式实现了反向传播的近似版本?或者它是一种完全不同的技术?这是一个很大的悬而未决的问题。如果我继续做研究,我就会研究这个问题。
访谈者: 当你现在回顾你的职业生涯时,你有很多事情都是对的,但你做错了什么,你希望你在某个方向上少花点时间?
Hinton: 好吧,这是两个不同的问题。一个是,你做错了什么?第二个是,你希望你在这件事上少花点时间吗?我认为我对玻尔兹曼机是错误的,我很高兴我在这上面花了很多时间。关于如何获得梯度,玻尔兹曼机比反向传播有更优美的理论。反向传播是普通且合理的,它只是一个链式法则。玻尔兹曼机很聪明,它是一种非常有趣的获取梯度的方法。我希望这就是大脑的工作方式,但我认为事实并非如此。
访谈者: 您是否花了很多时间想象这些系统发展起来之后会发生什么?您是否想过,如果我们能让这些系统运作良好,我们就能普及教育,让知识更容易获得,我们就能解决医学上的一些难题?或者对你来说,它更多的是关于理解大脑?
Hinton: 是的,我觉得科学家应该做一些能帮助社会的事情。但实际上,这不是你做最好研究的方式。当你被好奇心驱使时,你才能做出最好的研究。你只是需要去理解一些东西。最近,我意识到这些东西既能带来很多好处,也能带来很多坏处。我越来越担心它们将对社会产生的影响。但这不是我的动机。我只是想知道,大脑到底是如何学习东西的?这就是我想知道的。而我算是失败了。作为失败的副产品,我们得到了一些不错的工程。
访谈者: 是的,对世界来说,这是一个很好的失败。如果从事情可能往好的方向发展来看,你认为最有前景的应用是什么?
Hinton: 我认为医疗保健显然是一个很大的领域。医疗保健几乎可以无限地吸收社会资源。如果你照顾一位老人,他可能需要五位医生全天候服务。所以当人工智能比人类做得更好时,你会希望它在那些需要更多人力的领域做得更好。我们需要更多的医生。如果每个人都有三位自己的医生,那就太好了。而我们将达到这一点。所以这就是为什么医疗保健是一个很好的应用领域。
还有就是在新工程领域,例如开发新材料,用于制造更好的太阳能电池板,或者用于超导,或者仅仅是用于理解人体是如何工作的。在这些领域,人工智能将产生巨大的影响。这些都将是好事。我担心的是不法分子将它们用于坏事。我们已经看到像普京或特朗普这样的人,利用人工智能制造杀人机器人,操纵舆论,或进行大规模监控。这些都是非常令人担忧的事情。
访谈者: 您是否担心遏制这个领域的发展也会扼杀它的积极影响?
Hinton: 哦,当然。我认为这个领域不太可能放缓,部分原因是它是国际性的。如果一个国家放慢脚步,其他国家也不会放慢脚步。所以中美之间显然存在竞争,双方都不会放慢脚步。是的,我的意思是,曾经有一份请愿书说我们应该放慢六个月。我没有签署,只是因为我认为这永远不会发生。也许我应该签署,因为即使它永远不会发生,它也表达了一种政治观点。为了表明立场而要求你明知得不到的东西,这通常是件好事。但我认为我们不会放慢脚步。
访谈者: 您认为这将如何影响人工智能的研究进程?
Hinton: 我认为这将大大提高效率。当你有了这些助手来帮助你编程,帮助你思考问题,甚至可能帮助你解决方程式时,人工智能研究的效率会大大提高。
访谈者: 您是否认真思考过人才选拔的过程?对你来说,这主要是凭直觉吗?比如当Ilya出现在你面前时,你会觉得,这是一个聪明人,让我们一起工作。
Hinton: 所以,对于选拔人才,有时候你就是知道。和Ilya聊了没多久,我就觉得他很聪明。然后和他聊得更多之后,我发现他确实非常聪明,而且很有直觉,也很擅长数学。所以选择他是不费吹灰之力的。还有一个例子,当时我正在参加NIPS会议。我们有一个海报,有人走上来开始问关于海报的问题。他问的每一个问题都深刻地指出了我们做错的地方。五分钟后,我给了他一个博士后职位。那个人就是David Mackay,他非常聪明。他的去世令人非常难过,但很明显,你会想要他这样的人才。其他时候,情况就没那么明显了。我学到的一件事是,人与人之间是不同的。优秀的学生并非只有一种类型。
有些学生不那么有创造力,但在技术上非常强,能把任何事情都做成功。还有一些学生技术不强,但很有创造力。当然,你想要的是两者兼备的人才,但你并不总能如愿。但我认为实际上在实验室里,你需要各种不同类型的研究生。但我仍然相信我的直觉,有时候你跟一个人交谈,他们就是懂了。而这些人就是你想要的。
访谈者: 您认为有些人直觉更好的原因是什么?是因为他们比其他人拥有更好的训练数据吗?或者说,如何培养自己的直觉?
Hinton: 我认为部分原因是他们不相信废话。有一种方法可以让你拥有糟糕的直觉,那就是相信别人告诉你的每一件事。这是致命的。我认为有些人是这样的:他们有一个理解现实的完整框架。当有人告诉他们一些事情时,他们会试着弄清楚这件事是如何融入他们的框架的。如果不能,他们就会拒绝接受。这是一个非常好的策略。嗯,那些试图将听到的一切都整合进来的人,最终会形成一个非常模糊的框架,并且可以相信一切。而这是没有用的。所以我认为,对世界有一个坚定的看法,并试图操控接收到的信息以符合你的观点,显然会导致你陷入深深的宗教信仰和致命的缺陷,就像我对玻尔兹曼机的信仰一样。但我认为这才是正确的道路。如果你有良好的直觉,你就可以相信... 你应该相信它们。如果你有糟糕的直觉,那么无论你做什么都没有关系,所以你也可以相信它们。
访谈者: 说得好。展望如今正在进行的各类研究,您认为我们是否应该把所有鸡蛋都放在一个篮子里,或者我们是否应该在这个领域更多元化地发展我们的想法?或者您认为这是最值得期待的道路?所以我们都应该朝着这个方向努力。
Hinton: 我认为,拥有大型模型并用多模态数据训练它们,即使只是为了预测下一个词,也是一种非常有前途的方法,我们应该全力以赴。显然,现在有很多人都在这样做。也有很多人在做看似疯狂的事情。这很好。但我认为大多数人走这条路是好的,因为它运作得非常好。
访谈者: 您认为算法真的很重要吗?还是仅仅扩大规模就行了?实现人类水平的智能有千百条路,还是需要选择少数几条路来探索?
Hinton: 是的,关于特定的学习算法是否非常重要,或者是否存在大量可以完成这项工作的学习算法,我不知道答案。但在我看来,反向传播在某种意义上是正确的做法。获取梯度以便更改参数以使其更好地工作,这似乎是正确的做法,并且它已经取得了惊人的成功。很可能还有其他的学习算法,它们是获得相同梯度的替代方法,或者它们是获得其他东西的梯度并且也能工作。
我认为这都是开放的,现在一个非常有趣的问题是,是否还有其他你可以尝试和最大化的事情可以给你带来良好的系统。也许大脑这样做是因为它更容易。但在某种意义上,反向传播是正确的做法。我们知道这样做效果很好。
访谈者: 最后一个问题,当你回顾你几十年的研究生涯时,你最自豪的是什么?是学生吗?是研究吗?当你回顾你一生的工作时,什么让你最自豪?
Hinton: 是玻尔兹曼机的学习算法。玻尔兹曼机的学习算法非常优雅。它在实践中可能没有希望,但它是我和 Terry 一起开发中最享受的事情,也是我最自豪的事情,即使它是错的。
访谈者: 你现在花最多时间思考什么问题?
Hinton: 我应该在 Netflix 上看什么?
Reference: https://www.youtube.com/watch?v=n4IQOBka8bc