AI-从玻尔兹曼机到多模态大模型：Geoffrey Hinton的最新AI洞见

本文链接：https://blog.csdn.net/weixin_41864317/article/details/139790363

大型神经网络有超越训练数据的能力

背景：

在人工智能的辉煌历史中，Geoffrey Hinton 教授不仅是深度学习的奠基人之一，更是推动了整个领域从理论到实践的转变。在这次深入的访谈中，Geoffrey Hinton分享了自己在人工智能研究中的个人经历、对深度学习未来发展的深刻见解，以及对当前技术可能带来的社会影响的深思熟虑。

在讨论自己的研究兴趣时，Hinton 教授提到了 Donald O. Hebb 和 John von Neumann 对他的影响，以及他对大脑工作方式的直觉。他分享了自己对于神经网络的早期探索，以及如何通过实验和研究逐步验证这些直觉。

Hinton 教授的专业观点在多个方面展现了他深邃的思考和前瞻性的视野。他强调了大脑学习机制与反向传播算法之间的联系，并提出了大脑可能采用不同于传统算法的学习机制。

在讨论当前深度学习模型的能力和未来潜力时，Hinton 教授表现出了乐观态度。他认为，尽管目前这些模型在模拟人类意识和推理方面还有很大的提升空间，但随着模型规模的不断扩大和多模态数据的融合，它们将能够展现出更高级别的创造力和推理能力。Hinton 教授的专业观点进一步指出，大型语言模型通过寻找数据中的共同结构，能够以更有效的方式对事物进行编码，这是它们能够学习不同领域知识的关键。

同时，Hinton 教授也表达了对于人工智能技术可能被滥用的担忧。他强调了在推动技术发展的同时，必须考虑到其对社会的潜在影响，并寻求适当的监管和指导。这些担忧体现了Hinton 教授作为一位科学家的社会责任感，也提醒我们在追求技术进步的同时，不应忽视伦理和社会责任。

内容：

01 Geoffrey Hinton的AI学术观点

01 Geoffrey Hinton的AI学术观点
Joel Hellermark：这些年来，最大的转变不仅仅是算法方面，还包括了规模的提升。你是如何看待这种规模的与日俱增的？

Geoffrey Hinton：Ilya很早就有了这种直觉。他一直在宣扬，只要让模型变大，效果就会更好。我当时认为那有点像托辞，你也需要有新的想法。事实证明，Ilya基本是对的。新的想法确实有所帮助，比如Transformer模型的提出。但数据和算力的大规模扩展才是真正的关键。当时我们无法想象计算机会变得比现在快上十亿倍，我们以为最多只会快100倍。我们当时努力寻求巧妙的想法来解决问题，如果有了现在这样的大规模数据和计算力，很多问题本可以自己迎刃而解。

大约在2011年，Ilya和另一位叫James Martens的研究生提出了一篇基于字符级预测的论文。我们利用维基百科的数据，尝试预测下一个HTML字符，结果效果出奇的好。我们当时使用的是GPU上的一种复杂优化器，结果看起来就像模型真的理解了内容一样，这让我们始终感到难以置信。

Joel Hellermark：训练模型预测下一个词是怎样的过程？为什么这种思路是错误的？

Geoffrey Hinton：实际上，我并不认为这种思路是错误的。事实上，我做出了第一个使用嵌入和反向传播的神经网络语言模型。过程非常简单，数据只是三元组，它把每个符号转换成嵌入，然后让这些嵌入相互作用来预测下一个符号的嵌入，再从中预测下一个符号。整个过程使用反向传播来学习这些三元组。我证明了它能够推广。

大约10年后，Yoshua Bengio使用了一个非常相似的网络，证明它可以用于真实文本。再过了10年，语言学家才开始相信嵌入的概念，这是一个缓慢的过程。

我认为它不仅是在预测下一个符号，因为如果你问，预测下一个符号需要做些什么，尤其是当你问了一个问题，答案的第一个词就是下一个符号时，你必须理解这个问题。所以我认为，通过预测下一个符号，它与旧式的自动补全完全不同。旧式自动补全会存储一些三元组词组，然后如果看到一对词，就会看这对词后面最常出现的第三个词是什么，从而预测下一个符号。大多数人认为自动补全就是这种形式。但现在已经完全不一样了，为了预测下一个符号，你必须理解之前说过的内容。所以我认为，让它预测下一个符号就是强迫它去理解，而且它理解的方式与我们非常相似。

很多人会告诉你，这些模型并不像我们一样，它们只是在预测下一个符号，而不是像我们这样进行推理。但实际上，为了预测下一个符号，它必须进行一些推理。我们已经看到，如果你训练一个大模型，不需要输入任何特殊的推理知识，它已经可以进行一些推理了。我认为当模型变得更大时，它们将能够进行更多的推理。

Joel Hellermark：你认为现在你做的不只是预测下一个符号，对吗？

Geoffrey Hinton：我认为这就是你正在学习的方式。你在预测下一个视频帧，预测下一个声音。但我认为这是一个相当可信的大脑学习方式的理论。

Joel Hellermark：是什么让这些大语言模型能够学习各种不同领域的知识？

Geoffrey Hinton：这些大语言模型所做的是寻找共同的结构，通过发现共同结构，它们可以用更有效的方式对事物进行编码。让我给你一个例子，如果你问GPT-4"为什么堆肥堆和原子弹类似"，大多数人都无法回答，他们认为堆肥堆和原子弹是完全不同的事物。但GPT-4会告诉你，虽然能量和时间尺度不同，但它们都涉及链式反应，当堆肥堆越热就会发热越快，当原子弹产生的中子越多，产生的中子就越快，所以它们其实都是链式反应的形式。

我相信GPT-4已经理解了这一点，并将这种理解压缩到了它的权重参数中。如果它真的这样做了，那么对于成百上千种我们还没有发现的类比，它也会这样做，这就是创造力的来源，即看到表面上完全不同的事物之间的相似之处。所以我认为，随着模型越来越大，GPT-4 将变得非常有创造力。认为它只是在重复它所学到的知识，拼凑已有的文本是完全错误的，事实上它将比人类更具创造力。

Joel Hellermark：你认为它不仅能重复目前人类开发的