【so-large-lm】第二章学习打卡-CSDN博客

本文链接：https://blog.csdn.net/chb1945626852/article/details/134959260

Super Open Large Language Model

第二章主要讨论了自然语言处理和语言模型中的困惑度概念。困惑度是衡量语言模型在预测下一个词时性能的重要指标。它可以理解为模型在预测下一个词时的平均不确定性。困惑度越低，模型的预测越准确。语言模型的困惑度是基于词序列的联合概率计算得出的。随着序列长度的增加，联合概率趋近于零，这使得困惑度难以追踪。为了克服这个问题，困惑度使用几何平均而不是算术平均来评估模型处理不同词标记的性能。困惑度可以理解为每个标记的平均“分支因子”。它衡量了在观察到特定词或标记后，语言模型预测下一个可能出现的词或标记的平均数量。因此，困惑度实际上是衡量模型在处理所有可能的词标记时的性能，特别是在处理模型可能出错的情况下。文章还讨论了语言模型适应到任务模型的过程。语言模型用于评估和生成标记序列，而任务模型将输入映射到输出。适应过程涉及使用语言模型根据任务的自然语言描述和一组训练实例创建任务模型。文章还提到了特定任务，如问答和翻译。对于问答任务，语言模型需要在不需要显式搜索信息的情况下“知道”答案。适应过程可以通过训练一个新模型或使用训练实例对现有语言模型进行微调来完成。

GPT-3是一个具有代表性的大型语言模型，具有多种任务能力，包括语言建模、问题回答、翻译、新闻文章生成等。在许多任务上，GPT-3的表现优于其他模型，但在某些任务上，它的表现不如训练有素的模型。GPT-3在Penn Tree Bank数据集上的困惑度为1.92，在WebQuestions数据集上的准确率为79.3%，在TriviaQA数据集上的准确率为78.7%，在HellaSwag数据集上的准确率为79.3%。GPT-3在翻译任务上的表现也相当出色，在英语到法语的翻译任务上，BLEU得分为40.4，在英语到德语的翻译任务上，BLEU得分为37.5。GPT-3还可以进行新闻文章生成，生成文章的质量与真实文章相当接近。GPT-3还可以进行纠正英语语法的任务，准确率为78.7%。GPT-3在许多任务上的表现都相当出色，但仍然存在一些局限性，例如在处理某些任务时，其表现不如训练有素的模型。

reference：

https://github.com/datawhalechina/so-large-lm/tree/main