论文阅读:GPT2--Language Models are Unsupervised Multitask Learners

GPT2是一种预训练语言模型,它使用无监督学习在大量数据上训练,能执行多种任务而无需手动创建标签数据集。通过多任务学习,模型在不同任务间共享表示,提升泛化效果。GPT2模型包含48层Transformer,使用BPE进行输入表示,并在40G数据上训练。它可以应用于机器翻译、自动摘要和音乐生成等任务。
摘要由CSDN通过智能技术生成
  • Abstact
    • GPT2的核心思想就是认为可以用无监督的预训练模型去做有监督任务。
  • Introduction:
    • 典型应用:最著名的语言模型就是手机上面的输入法,根据当前输入词推荐下一个词
    • 目标上想构造一个通用的NLP模型,可以执行很多任务,不需要为每个任务手动创建和标记数据集
    • 多任务学习:把多个相关的任务放在一起学习,同时学习多个任务。
      • 基于共享表示,把多个相关的任务放在一起学习的机器学习方法

      • 多个相关任务同时并行学习,梯度同时反向传播,多个任务通过底层的共享表示、互相补充学习到的领域相关的信息,互相帮助学习任务,提升泛化效果。

    • 把多任务学习和非监督学习联系起来。在没有进行微调的情况下,也取得了很好的效果。说明了泛化能力进一步增强 训练集和测试集同分布
  • Approach
    • 2.1 Training Dataset 
      • 抓了800万个文档 40G数据
    • 2.2 Input Representation 
      • BPE
        • 基本词汇表13W 常用3.2-6.4W 字节层面词典大小256
        • 防止Bpe字符类别合并任何序列
        • 不需要分词预处理 字节<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值