论文阅读：GPT2--Language Models are Unsupervised Multitask Learners

最新推荐文章于 2024-07-29 18:32:27 发布

咕噜咕噜day

最新推荐文章于 2024-07-29 18:32:27 发布

阅读量1.2k

点赞数 2

文章标签： GPT2 LM 预训练语言模型生成任务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36533552/article/details/100173037

版权

GPT2是一种预训练语言模型，它使用无监督学习在大量数据上训练，能执行多种任务而无需手动创建标签数据集。通过多任务学习，模型在不同任务间共享表示，提升泛化效果。GPT2模型包含48层Transformer，使用BPE进行输入表示，并在40G数据上训练。它可以应用于机器翻译、自动摘要和音乐生成等任务。

摘要由CSDN通过智能技术生成

Abstact
- GPT2的核心思想就是认为可以用无监督的预训练模型去做有监督任务。
Introduction：
- 典型应用：最著名的语言模型就是手机上面的输入法，根据当前输入词推荐下一个词
- 目标上想构造一个通用的NLP模型，可以执行很多任务，不需要为每个任务手动创建和标记数据集
- 多任务学习：把多个相关的任务放在一起学习，同时学习多个任务。
  - 基于共享表示，把多个相关的任务放在一起学习的机器学习方法
  - 多个相关任务同时并行学习，梯度同时反向传播，多个任务通过底层的共享表示、互相补充学习到的领域相关的信息，互相帮助学习任务，提升泛化效果。
- 把多任务学习和非监督学习联系起来。在没有进行微调的情况下，也取得了很好的效果。说明了泛化能力进一步增强训练集和测试集同分布
Approach
- 2.1 Training Dataset
  - 抓了800万个文档 40G数据
- 2.2 Input Representation
  - BPE
    - 基本词汇表13W 常用3.2-6.4W 字节层面词典大小256
    - 防止Bpe字符类别合并任何序列
    - 不需要分词预处理字节<

最低0.47元/天解锁文章

咕噜咕噜day

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。