欢迎来到雲闪世界。ChatGPT 等大型语言模型 (LLM) 的出色表现震惊了世界。这一突破源于 Transformer 架构的发明,该架构出奇地简单且可扩展。它仍然由深度学习神经网络构建。主要新增功能是所谓的“注意力”机制,该机制将每个单词标记置于语境中。此外,其前所未有的并行性赋予 LLM 巨大的可扩展性,因此在训练数十亿个参数后具有令人印象深刻的准确性。
事实上,Transformer 架构所展现出的简单性堪比图灵机。不同之处在于,图灵机控制着机器在每个步骤中可以做什么。然而,Transformer 就像一个神奇的黑匣子,通过参数优化从大量输入数据中学习。研究人员和科学家仍然对发现它的潜力以及研究人类思维的任何理论意义非常感兴趣。
在本文中,我们将首先讨论 Transformer 架构的四个主要特性:词嵌入、注意力机制、单词预测以及多模态扩展和迁移学习等泛化能力。本文旨在关注该架构为何如此有效,而不是如何构建它(读者可以在 Medium 上找到许多关于如何构建它的优秀文章)。然后,我们将探讨它是否有助于解释我们的大脑如何工作,而不仅仅是未来人工智能的新兴操作系统。最后,我们将探讨 LLM 是否能在今天或未来拥有意识。
Transformer 架构的主要特点
词嵌入
词向量并不是新事物。它是自然语言处理 (NLP) 的基础,在 20 世纪 90 年代开始蓬勃发展。词向量使用高维空间中的向量表示一个词(或子词)。每个维度可以是一个特征、类别或概念(例如颜色、性别、皇室、食物等)。向量和维度的交集构成了一个参数,可通过梯度下降过程通过训练进行修改。下面是一个简单的示例,展示了词向量的基本概念。
具有相同特征的单词会沿着相同的维度排列,而空间中彼此距离较近的单词被认为含义相似或相关。因此,词向量可以通过线性代数运算来计算和推理,例如向量加法、减法或乘法(即乘法)。因此,向量之间的距离编码了单词之间的相似程度;向量的位置和方向反映了对应单词之间的关系。
我们无法想象一个高维空间(超过 3)。理解它的典型方法是将这些高维向量投影到二维空间。下面的图表仅作为演示示例,显示类似的单词(例如 Kings 和 Queens)彼此接近,而苹果、橙子和葡萄则形成另一个集群。
例如,在介绍 Transformer 架构的初始论文中,每个词嵌入在输入层中有 512 个特征,在内部层中有 2048 个特征。在多个训练集中,单词标记的数量从 25K 到 41K 不等。512 到 2024 维的矩阵编码了从大量训练文本中学习到的单词的含义,尽管每个维度代表的确切特征尚不清楚。
特征维度还可以包括模型自己学习的语法规则。换句话说,LLM 可以隐式地学习语法。一个典型的例子是让一个程序学习莎士比亚的所有文本,模型的输出可以说出像样的莎士比亚式语言。在内部,每个单词的预测都是通过向量计算得出的,以便在高维嵌入空间中找到最有可能的单词。
注意力机制
Transformer 中的注意力机制是计算单词与上下文的相似度和重要性。从技术上讲,它是计算词向量的点积,然后由 softmax 函数执行