论文地址:《Language Models are Unsupervised Multitask Learners》
代码地址:https://github.com/openai/gpt-2
论文介绍
本文将常识推理和情感分析两项任务联系起来,采取更一般的方法。证明了语言模型可以在zero-shot下无需任何参数或架构的修改执行下游任务。
模型框架
核心依旧是Language Modeling,形式化为
,从中可以学习到
。单任务预测形式化为p(output|input),多任务则为p(output|input,task),通过将tasks,inputs和outputs都表示为符号序列,便可和上面的语言模型关联起来。
Training Dataset是从网页抓取得到的相对高质量内容,数据集命名为WebText,是4500万链接的一个子集,包含超过800万个文档,共40GB的文本数据