DW大模型理论基础 第二章 大模型的能力

大模型的能力

参考链接:https://github.com/datawhalechina/so-large-lm/tree/main
GPT-3——这个具有代表性的⼤型语⾔模型的能⼒值得我们探讨。

1 语言模型的适应性:从语言模型到任务模型的转化

在⾃然语⾔处理的世界中,语⾔模型是⼀种对token序列的分布。这样的模型能够⽤于评估序列,同样,它还能⽤于在给定提示的条件下⽣成完成的序列。
对于每个任务,我们会讨论以下⼏点:

  • 定义:任务是什么,以及其动机?
  • 适应:我们如何通过提示将任务简化为语⾔模型?
  • 结果:与任务特定的最先进模型相⽐,数量性能如何?

模型的⼤⼩和训练样本的数量都很重要。默认情况下,结果将基于:

  • 完整的GPT-3模型(davinci),其拥有1750亿参数
  • 使⽤尽可能多的训练实例进⾏上下⽂学习,这些实例都可以塞进提示。

在此过程中,我们将进⾏消融实验,以查看模型的⼤⼩和上下⽂训练实例的数量是否真的重要。⽽结果告诉我们,答案是肯定的,更多总是更好。

困惑度(Perplexity) 是⼀个重要的指标,是⾃然语⾔处理和语⾔模型中的⼀个重要概念,⽤于衡量语⾔模型的性能。它可以解释为模型在预测下⼀个词时的平均不确定性。
召回错误 语⾔模型未能正确地为某个词符分配概率值。这种情况下,困惑度是毫不留情的。
精确度错误 语⾔模型为某些错误的词序列过度分配了概率值。在这种情况下,困惑度会进⾏适度的惩罚。
Penn Tree Bank 是⾃然语⾔处理中的⼀个经典数据集,最初是为了进⾏句法解析⽽标注。
LAMBADA 是⼀个语⾔模型任务。该数据的任务:预测句⼦的最后⼀个词。动机:解决这个任务需要对较⻓的内容进⾏建模,并对较⻓的内容具有⼀定的依赖。
HellaSwag 该数据是⼀个多项选择任务,所以最⾃然的做法是⽤语⾔模型为每个候选答案打分,并预测“最佳”答案。该数据的动机:评估模型进⾏常识推理的能⼒。任务:从⼀系列选择中选出最适合完成句⼦的选项。

2 Question answering

我们现在考虑(闭卷)问答题,其中输⼊是⼀个问题,输出是⼀个答案。
语⾔模型必须以某种⽅式“知道”答案,⽽⽆需在数据库或⼀组⽂档中查找信息。

TriviaQA

任务:给定⼀问题后⽣成答案。
原始数据集是由业余爱好者收集的,并被⽤作开放式阅读理解的挑战,但它可以用来进⾏(闭卷)问题回答。

WebQuestions

任务:和TriviaQA类似是问答任务。
数据集从Google搜索查询中收集,最初⽤于对知识库的问题回答。

NaturalQuestions

任务:回答问题。
从Google搜索查询中收集的数据集(区别在于答案的⻓度较⻓)。

3 Translation

翻译任务是将源语⾔(例如,德语)中的句⼦翻译成⽬标语⾔(例如,英语)中的句⼦。

4 Arithmetic

任务:做算术题(2-5位数的加法,减法,乘法)。
没有实际的理由要解决这个问题,这只是⼀个诊断任务。

5 News article generation

任务:给定标题和副标题,⽣成新闻⽂章。
数据集:标题/副标题取⾃newser.com。
先设⽴⼀个评估标准,⼈类根据⽂章可能由机器编写的可能性对⽂章进⾏评分。

6 Novel tasks

任务1:给定⼀个新造的词和定义,⽣成使⽤该词的句⼦。
任务2:给定⼀个不合语法的句⼦,⽣成其合语法的版本。

7 总结

大模型的能力需要的很多,以上是一些模型与数据集的介绍,本次学习的目标是对大模型有一定的了解,所以没有对里面的公式进行深挖,随着知识的不断积累,才会更好地认识到大模型的魅力。

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值