图解OpenAI的秘密武器GPT-2：可视化Transformer语言模型

最新推荐文章于 2024-10-26 15:24:39 发布

BigDataDigest

最新推荐文章于 2024-10-26 15:24:39 发布

阅读量1.2k

点赞数 1

分类专栏：人工智能科技笔记程序员

本文链接：https://blog.csdn.net/BigDataDigest/article/details/99564806

版权

本文深入探讨了OpenAI的GPT-2模型，揭示其作为强大语言生成工具的秘密。通过可视化Transformer架构，读者将更好地理解模型如何处理和生成自然语言，进一步探索其在自然语言处理领域的应用潜力。

摘要由CSDN通过智能技术生成

大数据文摘出品

来源：github

编译：小七、池俊辉、Andy

今年，我们见识了许多令人眼花缭乱的机器学习的应用成果。其中OpenAI训练的GPT-2模型就展示出了惊艳的能力，它能够撰写出连贯而富有激情的论文，比当下其他所有的语言模型写的都好。

GPT-2其实并不是一种特别新颖的架构，它的架构非常类似于Transformer模型的Decoder结构。然而，GPT2是一个非常大的基于Transformer的语言模型，需要基于大量数据集进行训练。在这篇文章中，我们将介绍什么样的结构能够让模型产生好的结果，深入研究模型中的self-attention层，此外，我们将研究除语言建模之外的Transformer模型Decoder结构的应用。

我写本文主要是为了补充我之前的“图解Transformer模型”系列。

系列链接：

https://jalammar.github.io/illustrated-transformer/

通过图解的方式更直观地解释Transformer模型的内部工作原理，以及它们自发布以来的演变过程。我希望通过这种图形示例能够更容易地解释后来基于Transformer的模型，毕竟它们的内部工作原理是在不断发展的。

本文主要从以下几方面展开阐述

第一部分：GPT2和语言建模

语言模型的含义

用于语言建模的Transformers模型

与BERT的区别

Transformer 架构的演变

速成课程：探索GPT-2内部工作原理

深入了解内幕

GPT-2小结

第二部分：图解Self-Attention（自我关注）模型

自注意力（Self-Attention，不加mask）

创建查询向量、键向量和值向量
打分
求和

图解Masked Self-Attention

GPT-2的Masked Self-Attention

你做到了！

第三部分：语言建模番外

机器翻译

生成摘要

迁移学习

音乐生成

结论

第一部分 GPT2和语言模型

那么究竟什么是语言模型呢？

语言模型的含义

在The Illustrated Word2vec中，我们研究了语言模型是什么，它是能根据一个句子前半部分的单词预测出下一个单词的机器学习模型。最著名的语言模型是智能手机键盘，可以根据您当前键入的内容建议出下一个单词。

The Illustrated Word2vec：

https://jalammar.github.io/illustrated-word2vec/

从这个意义上讲，我们可以说GPT-2基本上是键盘应用程序的下一个单词预测功能，但它比你手机上的键盘输入法具有更大更复杂的功能。GPT-2是基于一个名为WebText大型数据集进行的训练，这个数据集大约有40G，是OpenAI研究人员为了研究从互联网上爬下来的。就存储大小来说，我使用的键盘应用程序SwiftKey占用了78MB的空间。训练出来的GPT-2的最小变体，占用500MB的存储空间来存储其所有参数。GPT-2的最大变体是最小变体的13倍，因此它可能需要占用超过6.5 GB的存储空间。

使用AllenAI GPT-2 Explorer来进行GPT-2建模是一个很好的方法，它使用GPT-2显示10个对下一个单词的预测结果，以及它们的概率分数。您可以选择其中一个单词，然后再查看下一个预测列表，循序渐进，持续不断地写下去。

用于语言建模的Transformers模型

正如我们在“图解Transformer模型”中看到的那样，原始的 transformer模型由encoder和decoder组成，每个都是我们称之为 transformer 架构的堆栈。这种架构是合理的，因为该模型解决了机器翻译问题——过去encoder-decoder结构解决的问题。

在随后的许多研究工作中，这种架构要么去掉了encoder，要么去掉了decoder，只使用其中一种transformer堆栈，并尽可能高地堆叠它们，为它们提供大量的训练文本，并投入大量的计算机设备，以训练其中一部分语言模型，这一研究需要花费数十万美元，就像在研究AlphaStar时也投入了数百万美元的资金。

那么我们可以将这些块堆叠多高呢？事实证明，堆叠的高度是不同的GPT2模型之间大小有别的主要影响因素之一。

与BERT的区别

GPT-2是基于 transformer模型的decoder架构构建的。而BERT则是基于 transformer模型的encoder结构构建的。我们将在以下部分中研究两者的差异。两者之间的一个关键区别是，GPT2与传统语言模型一样，一次输出一个token。接下来让我们来举例说明，经过训练的GPT-2是如何背诵机器人第一定律（First Law of Robotics）的。