关于NLP模型GPT-2的学习笔记（二）

最新推荐文章于 2024-06-09 11:10:22 发布

bjwhile

最新推荐文章于 2024-06-09 11:10:22 发布

阅读量328

点赞数

分类专栏： Python 文章标签：自然语言处理 gpt 线性代数人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bjwhile/article/details/115019228

版权

本文是关于NLP模型GPT-2的深入学习笔记，主要探讨了GPT-2的基本机制，包括如何处理最长1024个单词的序列，以及在生成文本时如何利用top-k参数避免陷入循环。此外，还详细解释了GPT-2的数学模型，涉及嵌入矩阵、位置编码和transformer模块的工作原理，特别是自注意力机制的关键概念：查询、键和值向量。

摘要由CSDN通过智能技术生成

关于NLP模型GPT-2的学习笔记（二）

文章目录

关于NLP模型GPT-2的学习笔记（二）
前言
一、GPT-2基本机制
二、GPT-2数学模型
总结

前言

上一次我们介绍了GPT模型的基本结构，下面对于GPT的基本工作流程进行介绍：

一、GPT-2基本机制

GPT-2 可以处理最长 1024 个单词的序列。每个单词都会和它的前续路径一起经过所有的解码器模块。

运行一个训练好的 GPT-2 模型，最简单的方法就是让它自己随机工作（生成无条件样本）。我们也可以给它一些限制条件，让它生成一些关于特定主题的文本（即生成交互式条件样本）。在随机情况下，我们只简单地提供一个预先定义好的起始单词，然后让它自己生成文字。

此时，模型的输入只有一个单词，所以只有这个单词的路径是活跃的。单词经过层层处理，最终得到一个向量。向量可以对于词汇表的每个单词计算一个概率。我们选择概率最高的单词作为下一个单词。

但有时这样会出问题——就像如果我们持续点击输入法推荐单词的第一个，它可能会陷入推荐同一个词的循环中，只有你点击第二或第三个推荐词，才能跳出这种循环。同样的，GPT-2 也有一个叫做「top-k」的参数，模型会从前 k个概率较大的单词中选取下一个单词。当top-k = 1时，就是选取概率最大的单词作为输出。目前很多训练模型的默认top-k在8左右，当默认值生成的效果不好时，可以调整到40看看效果。

模型每输出一个单词就会将输出的单词添加在输入序列的尾部构建新的输入序列&#

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于NLP模型GPT-2的学习笔记（二）

关于NLP模型GPT-2的学习笔记（二）文章目录关于NLP模型GPT-2的学习笔记（二）前言一、GPT-2基本机制二、GPT-2数学模型总结前言上一次我们介绍了GPT模型的基本结构，下面对于GPT的基本工作流程进行介绍：一、GPT-2基本机制GPT-2 可以处理最长 1024 个单词的序列。每个单词都会和它的前续路径一起经过所有的解码器模块。运行一个训练好的 GPT-2 模型，最简单的方法就是让它自己随机工作（生成无条件样本）。我们也可以给它一些限制条件，让它生成一些关于特定主题的文本（即
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。