3分钟解释GPT-3

最新推荐文章于 2024-07-11 07:00:00 发布

linjingyg

最新推荐文章于 2024-07-11 07:00:00 发布

阅读量4.9k

点赞数 1

文章标签：自然语言处理深度学习人工智能

原文链接：https://www.fgba.net/forum-56.html

版权

3分钟解释GPT-3

　　你在Twitter上看到了一些惊人的GPT-3演示（机器制作的Op-Eds，诗歌，文章，甚至是工作代码）。但是，在这种令人难以置信的模型的幕后发生了什么？里面是一个（简短的！）介绍。

　　GPT-3是神经网络支持的语言模型。语言模型是预测世界上存在句子的可能性的模型。例如，语言模型可以将句子"我带狗去散步"标记为比句子"我带香蕉去散步"更可能存在（即在互联网上）。这对于句子，短语以及更普遍的任何字符序列都是如此。

　　与大多数语言模型一样，GPT-3在未标记的文本数据集（在本例中为"通用抓取"）上经过了优雅的训练。从文本中随机删除单词或短语，并且模型必须学会仅使用周围的单词作为上下文来填充单词或短语。这是一项简单的培训任务，可生成强大而通用的模型。

　　GPT-3模型架构本身是基于Transformer的神经网络。这种体系结构大约在2到3年前变得流行，并且是流行的NLP模型BERT的基础。从架构的角度来看，GPT-3实际上并不是很新颖！那么，什么使它如此特别和神奇呢？

　　它真的很大。我的意思是很大。它具有1750亿个参数，是有史以来最大的语言模型（GPT-2仅具有1.5个参数！），并且在任何语言模型的最大数据集中进行了训练。看来，这是GPT-3如此出色的主要原因。

　　这是神奇的部分。结果，GPT-3可以做其他QQ号码拍卖平台模型无法做的事情：无需特殊调整即可执行特定任务。您可以要求GPT-3担任翻译，程序员，诗人或著名作家，并且只需不到10个训练示例就可以做到。该死的。

　　大多数其他模型（例如BERT）都需要精巧的微调步骤，在此步骤中，您可以收集成千上万个（例如）法语-英语句子对的示例来教其如何进行翻译。使用GPT-3，您无需执行微调步骤。这就是它的核心。这就是使人们对GPT-3感到兴奋的原因：无需训练数据就可以执行自定义语言任务。

　　今天，GPT-3处于私人测试阶段，但是我迫不及待地想要获得它。

　　有关更多信息，请访问daleonai或在Twitter上关注@dalequark。

　　(本文翻译自Dale Markowitz的文章《GPT-3 Explained in Under 3Minutes》，参考：

　　towardsdatascience/gpt-3-explained-in-under-2-minutes-9c977ccb172f)

关注