大规模语言模型理论基础笔记-大模型的能力

以GPT3 (1750亿参数)为基准,其并没有在多项任务上起到绝对性的优胜地位。

语言模型的适应性(即迁移性),从语言模型到任务模型的转化

主要有以下几种实现方式:(微调和prompts learning)

这里使用了prompts learning进行了GPT3的性能测试,主要评估的任务分为三点,分别是:

  1. 任务定义及动机
  2. 如何adaption,将任务简化为语言模型
  3. 其与任务特定的SOTA模型比起来性能如何

Language modeling

评价指标:困惑度,当预测准确度及确定性较低时,则模型的困惑度会更高。

为了避免序列长度过长带来的联合概率趋向于0导致的无法计算,采用几何平均计算整体的困惑度。

      1. Penn Tree Bank 句法解析 超过SOTA,但可能存在数据泄露
      2. LAMBADA 预测最后一个词 超过GPT2
      3. HellaSwag 填空完成句子,评估模型进行常识推理的能力 此类问题的评估一直很难,包括定量和人类定性评估,这里提到了一些启发式方法:

结果:GPT3在没有微调的情况下接近SOTA

Question Answering 

    1. NaturalQuestions 答案长度较长,在长问答上 GPT3能力低于SOTA
    2. WenQuesions 在生成提示后,GPT3能力略低于SOTA RAG
    3. TriviaQA 在生成提示后,GPT3模型能力超过RAG

Translation

评估标准是 BLEU,其在德语法语罗马尼亚语到英语的翻译任务上几乎与SOTA持平。

Arithmetic

算术题与语言模型无关,但能体现出模型的学习能力和逻辑推理能力,在175亿参数下简单算术题基本可以答对。

News article generation

给定新闻标题和副标题生成新闻内容的任务,GPT3基本可以做到让人类难以区分的程度

使用新词造句和纠正英语语法

其他任务

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值