DW大模型理论基础第二章大模型的能力

最新推荐文章于 2024-07-17 17:53:42 发布

LucyFang2020

最新推荐文章于 2024-07-17 17:53:42 发布

阅读量382

点赞数 9

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LucyLuo2020/article/details/135635585

版权

大模型的能力

参考链接：https://github.com/datawhalechina/so-large-lm/tree/main
GPT-3——这个具有代表性的⼤型语⾔模型的能⼒值得我们探讨。

1 语言模型的适应性：从语言模型到任务模型的转化

在⾃然语⾔处理的世界中，语⾔模型是⼀种对token序列的分布。这样的模型能够⽤于评估序列，同样，它还能⽤于在给定提示的条件下⽣成完成的序列。
对于每个任务，我们会讨论以下⼏点：

定义：任务是什么，以及其动机？
适应：我们如何通过提示将任务简化为语⾔模型？
结果：与任务特定的最先进模型相⽐，数量性能如何？

模型的⼤⼩和训练样本的数量都很重要。默认情况下，结果将基于：

完整的GPT-3模型（davinci），其拥有1750亿参数
使⽤尽可能多的训练实例进⾏上下⽂学习，这些实例都可以塞进提示。

在此过程中，我们将进⾏消融实验，以查看模型的⼤⼩和上下⽂训练实例的数量是否真的重要。⽽结果告诉我们，答案是肯定的，更多总是更好。

困惑度（Perplexity） 是⼀个重要的指标，是⾃然语⾔处理和语⾔模型中的⼀个重要概念，⽤于衡量语⾔模型的性能。它可以解释为模型在预测下⼀个词时的平均不确定性。
召回错误 语⾔模型未能正确地为某个词符分配概率值。这种情况下，困惑度是毫不留情的。
精确度错误 语⾔模型为某些错误的词序列过度分配了概率值。在这种情况下，困惑度会进⾏适度的惩罚。
Penn Tree Bank 是⾃然语⾔处理中的⼀个经典数据集，最初是为了进⾏句法解析⽽标注。
LAMBADA 是⼀个语⾔模型任务。该数据的任务：预测句⼦的最后⼀个词。动机：解决这个任务需要对较⻓的内容进⾏建模，并对较⻓的内容具有⼀定的依赖。
HellaSwag 该数据是⼀个多项选择任务，所以最⾃然的做法是⽤语⾔模型为每个候选答案打分，并预测“最佳”答案。该数据的动机：评估模型进⾏常识推理的能⼒。任务：从⼀系列选择中选出最适合完成句⼦的选项。

2 Question answering

我们现在考虑（闭卷）问答题，其中输⼊是⼀个问题，输出是⼀个答案。
语⾔模型必须以某种⽅式“知道”答案，⽽⽆需在数据库或⼀组⽂档中查找信息。

TriviaQA

任务：给定⼀问题后⽣成答案。
原始数据集是由业余爱好者收集的，并被⽤作开放式阅读理解的挑战，但它可以用来进⾏（闭卷）问题回答。

WebQuestions

任务：和TriviaQA类似是问答任务。
数据集从Google搜索查询中收集，最初⽤于对知识库的问题回答。

NaturalQuestions

任务：回答问题。
从Google搜索查询中收集的数据集（区别在于答案的⻓度较⻓）。

3 Translation

翻译任务是将源语⾔（例如，德语）中的句⼦翻译成⽬标语⾔（例如，英语）中的句⼦。

4 Arithmetic

任务：做算术题（2-5位数的加法，减法，乘法）。
没有实际的理由要解决这个问题，这只是⼀个诊断任务。

5 News article generation

任务：给定标题和副标题，⽣成新闻⽂章。
数据集：标题/副标题取⾃newser.com。
先设⽴⼀个评估标准，⼈类根据⽂章可能由机器编写的可能性对⽂章进⾏评分。

6 Novel tasks

任务1：给定⼀个新造的词和定义，⽣成使⽤该词的句⼦。
任务2：给定⼀个不合语法的句⼦，⽣成其合语法的版本。

7 总结

大模型的能力需要的很多，以上是一些模型与数据集的介绍，本次学习的目标是对大模型有一定的了解，所以没有对里面的公式进行深挖，随着知识的不断积累，才会更好地认识到大模型的魅力。

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
DW大模型理论基础第二章大模型的能力

大模型的能力需要的很多，以上是一些模型与数据集的介绍，本次学习的目标是对大模型有一定的了解，所以没有对里面的公式进行深挖，随着知识的不断积累，才会更好地认识到大模型的魅力。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。