【so-large-lm】第二章学习打卡

Super Open Large Language Model

第二章主要讨论了自然语言处理和语言模型中的困惑度概念。困惑度是衡量语言模型在预测下一个词时性能的重要指标。它可以理解为模型在预测下一个词时的平均不确定性。困惑度越低,模型的预测越准确。 语言模型的困惑度是基于词序列的联合概率计算得出的。随着序列长度的增加,联合概率趋近于零,这使得困惑度难以追踪。为了克服这个问题,困惑度使用几何平均而不是算术平均来评估模型处理不同词标记的性能。 困惑度可以理解为每个标记的平均“分支因子”。它衡量了在观察到特定词或标记后,语言模型预测下一个可能出现的词或标记的平均数量。因此,困惑度实际上是衡量模型在处理所有可能的词标记时的性能,特别是在处理模型可能出错的情况下。 文章还讨论了语言模型适应到任务模型的过程。语言模型用于评估和生成标记序列,而任务模型将输入映射到输出。适应过程涉及使用语言模型根据任务的自然语言描述和一组训练实例创建任务模型。 文章还提到了特定任务,如问答和翻译。对于问答任务,语言模型需要在不需要显式搜索信息的情况下“知道”答案。适应过程可以通过训练一个新模型或使用训练实例对现有语言模型进行微调来完成。

GPT-3是一个具有代表性的大型语言模型,具有多种任务能力,包括语言建模、问题回答、翻译、新闻文章生成等。在许多任务上,GPT-3的表现优于其他模型,但在某些任务上,它的表现不如训练有素的模型。GPT-3在Penn Tree Bank数据集上的困惑度为1.92,在WebQuestions数据集上的准确率为79.3%,在TriviaQA数据集上的准确率为78.7%,在HellaSwag数据集上的准确率为79.3%。GPT-3在翻译任务上的表现也相当出色,在英语到法语的翻译任务上,BLEU得分为40.4,在英语到德语的翻译任务上,BLEU得分为37.5。GPT-3还可以进行新闻文章生成,生成文章的质量与真实文章相当接近。GPT-3还可以进行纠正英语语法的任务,准确率为78.7%。GPT-3在许多任务上的表现都相当出色,但仍然存在一些局限性,例如在处理某些任务时,其表现不如训练有素的模型。

reference:

https://github.com/datawhalechina/so-large-lm/tree/main

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值