大模型的能力篇

最新推荐文章于 2024-08-07 20:56:18 发布

小陈-C：

最新推荐文章于 2024-08-07 20:56:18 发布

阅读量420

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_75035152/article/details/132839104

版权

2.1

“Adaptation”一词是用来指代将语言模型转化为任务模型的过程。这个过程需要一下两个的输入：

任务的自然语言描述。
一组训练实例（输入-输出对）

主要是有两种方式来进行适应：

训练：标准的有监督的学习。
提示（上下文学习）这个也可以进一步细分为零样本学习（ps；感觉这种就像对模型的一个检测，用来大致确认哪个部分需要优化），单样本学习，少样本学习。

2.1.1

困惑度：

语言模型在昨天的学习中，可以知道是一种对令牌序列的条件概率。那么对于令牌中的文本我们该怎么分配概率呢，比如：i am the best。这时我们会对每一个单词分配概率，此时这一条序列的概率就是他们的联合分布概率了，每一个单词的概率就是在这个条件下的条件概率。可如果，此时的文本是i am the b 。我们又怎么让语言模型去合理的构造这个语句呢。我们通过引入困惑度来预测这个的平均不确定性。它的定义是：

N其实表示的是测试集中的总词数，x1,x2,x3,x4...是我们测试集中的词序列。在文中提到说“一个优秀的语言模型总是可以准确的预测测试数据中的词序列，因此他的困惑度很低。”以我看来，因为P(x1,x2,...,xN)这个概率越大，代表他预测的可能性更高，而后因为负次方的存在，它处分母的位置，分母越大，分数越小，困惑度越小。

几何平均：

一般是不采用算数平均的，这个可能会导致我们的测试数据出现被分配为0的概率，这个概率可能会被其他概率抵消掉。我觉得如果在这种情况下，可能这个数据在后面不再出现，这也违背了我们测试数据的初衷了。采用几何平均的话，每一个测试数据都可以被平等的对待，如果出现一个为0的概率对整体算术平均影响会很大。

这公式中的log()和困惑度有密切的关系，这个表达式代表了编码长度。ps:（根据困惑度的计算公式，这个表达式应该是对2取对数）有个例子很直观：一个长度为3的二进制的字符串可以编码2的3次方，暨8个可能的字符串。那如果困惑度为8的话，那他对序列中的每个词，模型都会考虑8个可能性的词。如果选择的可能性越多，那么这个模型的预测任务就会更复杂，困惑度也会越高。

2.1.1.1

Penn Tree Bank：

这是自然语言处理中的一个经典数据集。实验人员在他的基础上对GPT-3进行适应度测试，结果：GPT-3大幅度的超过了目前最好的结果。虽然存在有一定数据泄露的问题。ps：困惑度足足有降低10，从31.3到20.5。那这个是不是可以数说明搜索到正确的词序列的概率提高了1.5倍呢？

2.1.1.2

LAMBADA

任务：预测句子的最后一个词。

动机：解决这个问题需要对较长的内容进行建模，并对较长的内容有一定的依赖。

实验人员在这次测试中采用了上下文学习的方法，利用（输入-输出对）。结果GPT-3也是超过了之前最好的结果。

2.1.1.3

HellaSwag

动机：评估模型进行常识推理的能力。

任务：从一系列选择中选出最适合完成句子的选项。

这里面采用的做法是用语言模型给每个候选答案打分，并预测“最佳“答案。

研究人员采用了一些启发式方法：未归化一概率，长度归一概率，频率归一概率。

虽然GPT-3没有超过最先进的水平，但是这是建立在完全不在该数据集中训练得到的结果，进步空间巨大，令人十分惊喜。

2.1.2

Quastion answering

这是在考虑（闭卷）问答题，其中输入的是一个问题，输出的是一个答案。模型要通过某种方式（ps：可能是问答的方式？）“知道”答案。在通过TriviaQA，WebQueations，NatrualQuestions。研究人员发现：增加模型大小和增加in-context training实例都有助于提高性能。

2.1.3------2.1.7

这后面主要是介绍了GPT-3在翻译，算术，新闻文章，创造句子，纠正英语语法等方面的应用，引用方面很广泛。我觉得仅仅是GPT-3的应用就已经如此的广泛，如果到了GPT-6，他是否可以称的上为弱人工智能呢，而不是仅仅作为一个语言模型。