GPT-2介绍

蛋王派

已于 2023-04-19 12:00:44 修改

阅读量831

点赞数 1

文章标签：机器学习深度学习自然语言处理

于 2023-04-19 11:59:07 首次发布

本文链接：https://blog.csdn.net/huanxingchen1/article/details/130241030

版权

GPT-2介绍

GPT-2（Language Models are Unsupervised Multitask Learners）。在上文中，我们介绍了GPT-1的模型搭建流程。GPT-1采用的是无监督预训练+有监督微调的两阶段形式生成特定任务的模型。而GPT-2舍弃了GPT-1的有监督微调阶段，仅仅使用无监督预训练获取一个适应多种下游任务的通用语言模型。其实GPT-2的这种思路符合Prompt学习策略。

GPT-2的训练思路

GPT-2旨在训练出一个通用的语言模型，能够在不进行fine-tuning的情况下仍然能够较好地处理文本翻译、摘要提取、文本分类等常见的下游任务。GPT-2认为在基于大量高质量数据预训练的过程中，模型已经学习到了各种任务的相关信息。

比如训练语料中有““Mentez mentez, il en restera toujours quelque chose,” which translates as, “Lie lie and something will always remain.””这么一段话，通过预训练过程，模型已经有能力进行翻译（translate）任务，只是需要一个合适的引导。即在推理阶段给模型一个任务相关的提示（prompt），比如 “translate English to French”。

GPT-2模型的改进

无需构造有监督样本进行fine-tuning，也能在文本翻译、摘要生成等多个下游任务取得不错的效果。
Layer Normalization 移动到了每个 Sub-Block 的输入部分，在每个 Self-Attention 之后额外添加了一个 Layer Normalization，最终顺序是：LN, Self-Attention , LN。
采用一种改进的初始化方法，该方法考虑了残差路径与模型深度的累积。在初始化时将 residual layers 的权重按 $1/\sqrt N$ 。的因子进行缩放，其中 $N$ 是 residual layers 的数量。
无监督预训练可看到的上下文的 context 由512扩展为1024。
Batch Size 大小调整为512。
字典大小设置为50257。