Language Models are unsupervised multitask learners

最新推荐文章于 2024-03-31 01:31:43 发布

chansonzhang

最新推荐文章于 2024-03-31 01:31:43 发布

阅读量777

点赞数

分类专栏： NLP Papers NLP AI 文章标签：自然语言处理机器学习深度学习

本文链接：https://blog.csdn.net/chansonzhang/article/details/120234563

版权

NLP Papers 同时被 3 个专栏收录

54 篇文章 23 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

68 篇文章 2 订阅

订阅专栏

NLP

60 篇文章 1 订阅

订阅专栏

Abstract

自然语言处理任务通常在任务特定的数据集上进行有监督学习。
本文说明了在一个包含数百万网页的新数据集（WebText）上训练的语言模型能够在没有任何显式监督的情况下学会处理各种自然语言任务。
并在 CoQA 数据集上得到 F1 为 55 的好结果，与 4 个 baseline 系统相比，可以匹敌或超过其中的 3 个，其无需使用 127,000+ 的训练样本。
zero-shot 任务迁移成功的关键是语言模型的容量，通过增大模型容量，可以在多个任务上以 log-linear 的方式提高性能。
本文提出的最大的模型 GPT-2，是一个包含 1.5B 参数的 Transformer, 在 zero-shot 情况下，在 8 项语言模型数据集上取得了 7 项 SOTA，并且对 WebText 数据集依然是 underfit 的。