以GPT3 (1750亿参数)为基准,其并没有在多项任务上起到绝对性的优胜地位。
语言模型的适应性(即迁移性),从语言模型到任务模型的转化
主要有以下几种实现方式:(微调和prompts learning)
这里使用了prompts learning进行了GPT3的性能测试,主要评估的任务分为三点,分别是:
- 任务定义及动机
- 如何adaption,将任务简化为语言模型
- 其与任务特定的SOTA模型比起来性能如何
Language modeling
评价指标:困惑度,当预测准确度及确定性较低时,则模型的困惑度会更高。
为了避免序列长度过长带来的联合概率趋向于0导致的无法计算,采用几何平均计算整体的困惑度。
-
-
- Penn Tree Bank 句法解析 超过SOTA,但可能存在数据泄露
- LAMBADA 预测最后一个词 超过GPT2
- HellaSwag 填空完成句子,评估模型进行常识推理的能力 此类问题的评估一直很难,包括定量和人类定性评估,这里提到了一些启发式方法:
-
结果:GPT3在没有微调的情况下接近SOTA
Question Answering
-
- NaturalQuestions 答案长度较长,在长问答上 GPT3能力低于SOTA
- WenQuesions 在生成提示后,GPT3能力略低于SOTA RAG
- TriviaQA 在生成提示后,GPT3模型能力超过RAG
Translation
评估标准是 BLEU,其在德语法语罗马尼亚语到英语的翻译任务上几乎与SOTA持平。
Arithmetic
算术题与语言模型无关,但能体现出模型的学习能力和逻辑推理能力,在175亿参数下简单算术题基本可以答对。
News article generation
给定新闻标题和副标题生成新闻内容的任务,GPT3基本可以做到让人类难以区分的程度