GPT-2介绍

GPT-2介绍

GPT-2(Language Models are Unsupervised Multitask Learners)。在上文中,我们介绍了GPT-1的模型搭建流程。GPT-1采用的是无监督预训练+有监督微调的两阶段形式生成特定任务的模型。而GPT-2舍弃了GPT-1的有监督微调阶段,仅仅使用无监督预训练获取一个适应多种下游任务的通用语言模型。其实GPT-2的这种思路符合Prompt学习策略。

GPT-2的训练思路

GPT-2旨在训练出一个通用的语言模型,能够在不进行fine-tuning的情况下仍然能够较好地处理文本翻译、摘要提取、文本分类等常见的下游任务。GPT-2认为在基于大量高质量数据预训练的过程中,模型已经学习到了各种任务的相关信息。

比如训练语料中有““Mentez mentez, il en restera toujours quelque chose,” which translates as, “Lie lie and something will always remain.””这么一段话,通过预训练过程,模型已经有能力进行翻译(translate)任务,只是需要一个合适的引导。即在推理阶段给模型一个任务相关的提示(prompt),比如 “translate English to French”。

GPT-2模型的改进

  • 无需构造有监督样本进行fine-tuning,也能在文本翻译、摘要生成等多个下游任务取得不错的效果。

  • Layer Normalization 移动到了每个 Sub-Block 的输入部分,在每个 Self-Attention 之后额外添加了一个 Layer Normalization,最终顺序是:LN, Self-Attention , LN。

  • 采用一种改进的初始化方法,该方法考虑了残差路径与模型深度的累积。在初始化时将 residual layers 的权重按 1 / N 1/\sqrt N 1/N 。的因子进行缩放,其中 N N N是 residual layers 的数量。

  • 无监督预训练可看到的上下文的 context 由512扩展为1024。

  • Batch Size 大小调整为512。

  • 字典大小设置为50257。

GPT-2的数据集

GPT-2使用的是WebText数据集,包含了4500万个链接的文本数据集。经过重复数据删除和一些基于启发式的清理后,它包含略多于800万个文档,总文本容量为 40GB。

GPT-2的规模

最小的模型和 GPT 大小相当,第二小的模型和最大的 BERT 大小相当。最大的模型叫做 GPT-2,它的参数比 GPT 多一个数量级。但即便如此,在 WebText 上任然是欠拟合的。

M代表百万。1M的参数量对应的模型大概40MB。

模型大小层数维度
117M12768
345M241024
762M361280
1542M481600
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值