大型神经网络有超越训练数据的能力
背景:
在人工智能的辉煌历史中,Geoffrey Hinton 教授不仅是深度学习的奠基人之一,更是推动了整个领域从理论到实践的转变。在这次深入的访谈中,Geoffrey Hinton分享了自己在人工智能研究中的个人经历、对深度学习未来发展的深刻见解,以及对当前技术可能带来的社会影响的深思熟虑。
在讨论自己的研究兴趣时,Hinton 教授提到了 Donald O. Hebb 和 John von Neumann 对他的影响,以及他对大脑工作方式的直觉。他分享了自己对于神经网络的早期探索,以及如何通过实验和研究逐步验证这些直觉。
Hinton 教授的专业观点在多个方面展现了他深邃的思考和前瞻性的视野。他强调了大脑学习机制与反向传播算法之间的联系,并提出了大脑可能采用不同于传统算法的学习机制。
在讨论当前深度学习模型的能力和未来潜力时,Hinton 教授表现出了乐观态度。他认为,尽管目前这些模型在模拟人类意识和推理方面还有很大的提升空间,但随着模型规模的不断扩大和多模态数据的融合,它们将能够展现出更高级别的创造力和推理能力。Hinton 教授的专业观点进一步指出,大型语言模型通过寻找数据中的共同结构,能够以更有效的方式对事物进行编码,这是它们能够学习不同领域知识的关键。
同时,Hinton 教授也表达了对于人工智能技术可能被滥用的担忧。他强调了在推动技术发展的同时,必须考虑到其对社会的潜在影响,并寻求适当的监管和指导。这些担忧体现了Hinton 教授作为一位科学家的社会责任感,也提醒我们在追求技术进步的同时,不应忽视伦理和社会责任。
内容:
01 Geoffrey Hinton的AI学术观点
01 Geoffrey Hinton的AI学术观点
Joel Hellermark:这些年来,最大的转变不仅仅是算法方面,还包括了规模的提升。你是如何看待这种规模的与日俱增的?
Geoffrey Hinton:Ilya很早就有了这种直觉。他一直在宣扬,只要让模型变大,效果就会更好。我当时认为那有点像托辞,你也需要有新的想法。事实证明,Ilya基本是对的。新的想法确实有所帮助,比如Transformer模型的提出。但数据和算力的大规模扩展才是真正的关键。当时我们无法想象计算机会变得比现在快上十亿倍,我们以为最多只会快100倍。我们当时努力寻求巧妙的想法来解决问题,如果有了现在这样的大规模数据和计算力,很多问题本可以自己迎刃而解。
大约在2011年,Ilya和另一位叫James Martens的研究生提出了一篇基于字符级预测的论文。我们利用维基百科的数据,尝试预测下一个HTML字符,结果效果出奇的好。我们当时使用的是GPU上的一种复杂优化器,结果看起来就像模型真的理解了内容一样,这让我们始终感到难以置信。
Joel Hellermark:训练模型预测下一个词是怎样的过程?为什么这种思路是错误的?
Geoffrey Hinton:实际上,我并不认为这种思路是错误的。事实上,我做出了第一个使用嵌入和反向传播的神经网络语言模型。过程非常简单,数据只是三元组,它把每个符号转换成嵌入,然后让这些嵌入相互作用来预测下一个符号的嵌入,再从中预测下一个符号。整个过程使用反向传播来学习这些三元组。我证明了它能够推广。
大约10年后,Yoshua Bengio使用了一个非常相似的网络,证明它可以用于真实文本。再过了10年,语言学家才开始相信嵌入的概念,这是一个缓慢的过程。
我认为它不仅是在预测下一个符号,因为如果你问,预测下一个符号需要做些什么,尤其是当你问了一个问题,答案的第一个词就是下一个符号时,你必须理解这个问题。所以我认为,通过预测下一个符号,它与旧式的自动补全完全不同。旧式自动补全会存储一些三元组词组,然后如果看到一对词,就会看这对词后面最常出现的第三个词是什么,从而预测下一个符号。大多数人认为自动补全就是这种形式。但现在已经完全不一样了,为了预测下一个符号,你必须理解之前说过的内容。所以我认为,让它预测下一个符号就是强迫它去理解,而且它理解的方式与我们非常相似。
很多人会告诉你,这些模型并不像我们一样,它们只是在预测下一个符号,而不是像我们这样进行推理。但实际上,为了预测下一个符号,它必须进行一些推理。我们已经看到,如果你训练一个大模型,不需要输入任何特殊的推理知识,它已经可以进行一些推理了。我认为当模型变得更大时,它们将能够进行更多的推理。
Joel Hellermark:你认为现在你做的不只是预测下一个符号,对吗?
Geoffrey Hinton:我认为这就是你正在学习的方式。你在预测下一个视频帧,预测下一个声音。但我认为这是一个相当可信的大脑学习方式的理论。
Joel Hellermark:是什么让这些大语言模型能够学习各种不同领域的知识?
Geoffrey Hinton:这些大语言模型所做的是寻找共同的结构,通过发现共同结构,它们可以用更有效的方式对事物进行编码。让我给你一个例子,如果你问GPT-4"为什么堆肥堆和原子弹类似",大多数人都无法回答,他们认为堆肥堆和原子弹是完全不同的事物。但GPT-4会告诉你,虽然能量和时间尺度不同,但它们都涉及链式反应,当堆肥堆越热就会发热越快,当原子弹产生的中子越多,产生的中子就越快,所以它们其实都是链式反应的形式。
我相信GPT-4已经理解了这一点,并将这种理解压缩到了它的权重参数中。如果它真的这样做了,那么对于成百上千种我们还没有发现的类比,它也会这样做,这就是创造力的来源,即看到表面上完全不同的事物之间的相似之处。所以我认为,随着模型越来越大,GPT-4 将变得非常有创造力。认为它只是在重复它所学到的知识,拼凑已有的文本是完全错误的,事实上它将比人类更具创造力。
Joel Hellermark:你认为它不仅能重复目前人类开发的