图解GPT3的工作原理

图解GPT3的工作原理


GPT3炒作在科技界引起了轩然大波。大量的语言模型(如GPT3)的能力开始让我们感到惊讶。虽然大多数企业还不能完全放心地将这些模型展示在客户面前,但它们正显示出一些聪明的火花,这些火花肯定会加速自动化进程,并推动智能计算机系统的发展。让我们消除GPT3的神秘光环,了解它是如何训练和如何工作的。

经过训练的语言模型生成文本。

我们可以选择向它传递一些文本作为输入,这将影响它的输出。

这些输出是由模型在训练期间扫描大量文本“学到”的东西产生的。

动图封面

训练是将模型暴露于大量文本的过程。该过程已经完成。您现在看到的所有实验都来自该受过训练的模型。据估计,这需要花费355年的GPU时间,花费460万美元。

动图封面

3000亿个文本token的数据集用于生成模型的训练样本。例如,这些是从顶部的一个句子生成的三个训练样本。

您将看到如何在所有文本上滑动窗口并生成许多样本。

该模型带有一个示例。我们只给它看特征,然后让它预测下一个单词。

该模型的预测将是错误的。我们在预测中计算误差并更新模型,以便在下一次做出更好的预测。

重复数百万次

动图封面

现在,让我们更详细地了解这些相同的步骤。

GPT3实际上一次生成一个输出token(现在假设一个token是一个单词)。

动图封面

请注意:这是对GPT-3的工作方式的描述,而不是有关GPT-3新颖性的讨论(主要是可笑的大规模)。该架构是基于本文https://arxiv.org/pdf/1801.10198.pdf的Transformer解码器模型

GPT3是巨大的。它对从1750亿个数字(称为参数)的训练中学到的东西进行编码。这些数字用于计算每次运行生成的token。

未经训练的模型从随机参数开始。训练会发现可以带来更好预测的价值。

这些数字是模型中数百个矩阵的一部分。预测主要是很多矩阵乘法。

YouTube上的AI简介中,展示了一个带有一个参数的简单ML模型。一个很好的开始,以解开此175B怪物。

为了阐明这些参数的分布和使用方式,我们需要打开模型并查看内部。

GPT3为2048个token。这就是它的“上下文窗口”。这意味着它有2048条轨道,沿着这些轨道处理token。

让我们跟随紫色的轨道。系统如何处理“robotics”一词并产生“ A”?

步骤:

动图封面

GPT3的重要计算发生在其96个Transformer解码器层的堆栈内部。

看到所有这些图层?这是“深度学习”中的“深度”。

这些层中的每一层都有其自己的1.8B参数进行计算。那就是“魔术”发生的地方。这是该过程的高级视图:

动图封面

可以在文章The Illustrated GPT2中看到有关解码器内部所有内容的详细说明。
与GPT3的不同之处在于交替的密集和稀疏的自我注意层

这是GPT3中的输入和响应(“Okay human”)的X射线。注意每个token如何流过整个层堆栈。我们不在乎首字的输出。输入完成后,我们开始关心输出。我们将每个单词反馈到模型中。

动图封面

React代码生成示例,描述将是输入提示符(用绿色表示),我相信还有几个description=>代码的例子。react代码就会像这里的粉色token一样生成一个又一个的token。

我的假设是,启动示例和描述作为输入追加,使用特定的token将示例和结果分开。然后输入到模型中。

动图封面

让人印象深刻的是,它是这样运作的。因为您只需等待对GPT3进行微调。可能性将会更加惊人。

微调实际上会更新模型的权重,以使模型在某些任务上表现更好。

动图封面

参考文献:

1、How GPT3 Works - Visualizations and Animations

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值