Transformer 架构告诉我们什么？

最新推荐文章于 2025-04-29 18:05:05 发布

数云界

最新推荐文章于 2025-04-29 18:05:05 发布

阅读量2k

点赞数 21

文章标签： transformer 架构深度学习

本文链接：https://blog.csdn.net/2401_85233349/article/details/140842931

版权

欢迎来到雲闪世界。ChatGPT 等大型语言模型 (LLM) 的出色表现震惊了世界。这一突破源于 Transformer 架构的发明，该架构出奇地简单且可扩展。它仍然由深度学习神经网络构建。主要新增功能是所谓的“注意力”机制，该机制将每个单词标记置于语境中。此外，其前所未有的并行性赋予 LLM 巨大的可扩展性，因此在训练数十亿个参数后具有令人印象深刻的准确性。

事实上，Transformer 架构所展现出的简单性堪比图灵机。不同之处在于，图灵机控制着机器在每个步骤中可以做什么。然而，Transformer 就像一个神奇的黑匣子，通过参数优化从大量输入数据中学习。研究人员和科学家仍然对发现它的潜力以及研究人类思维的任何理论意义非常感兴趣。

在本文中，我们将首先讨论 Transformer 架构的四个主要特性：词嵌入、注意力机制、单词预测以及多模态扩展和迁移学习等泛化能力。本文旨在关注该架构为何如此有效，而不是如何构建它（读者可以在 Medium 上找到许多关于如何构建它的优秀文章）。然后，我们将探讨它是否有助于解释我们的大脑如何工作，而不仅仅是未来人工智能的新兴操作系统。最后，我们将探讨 LLM 是否能在今天或未来拥有意识。

Transformer 架构的主要特点

词嵌入

词向量并不是新事物。它是自然语言处理 (NLP) 的基础，在 20 世纪 90 年代开始蓬勃发展。词向量使用高维空间中的向量表示一个词（或子词）。每个维度可以是一个特征、类别或概念（例如颜色、性别、皇室、食物等）。向量和维度的交集构成了一个参数，可通过梯度下降过程通过训练进行修改。下面是一个简单的示例，展示了词向量的基本概念。