大语言模型总结1

论文:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

1. encoder-only模型经历了短暂的潮流,BERT,2021年之后逐渐消亡;2021年之后,decoder-only 模型逐渐成为主流

2. openai 一直处于引领地位; meta 是对开源社区贡献最大的公司,它的每个LLM都开源了;

3. 工业界LLM的发展倾向于不再开源,特别是GPT-3出现之后(2020年);学术界难以训练大语言模型,API-based research 成为研究主流

4. encoder-decoder 模型仍是令人期待的,google 在encoder-decoder 模型的开源工作中做出了主要贡献,(仅解码器模型的灵活性和多功能性似乎让谷歌对这个方向的坚持变得不那么有希望)

BERT 和 GPT 系列的模型

encoder-decoder 或 encoder-only 模型中最具代表性的 BERT(2018年),采用掩码预训练,学习目标词与上下文的语义关系,常见下游任务有:情感分析,命名实体识别。这种模型称为 MLM (Masked language Model)。常见模型有:BERT,RoBERTa,T5。

decoder-only 模型的代表:GPT,采用预测下一个词进行与训练,需要在与特定下游任务对应的数据集上微调。常见下游任务有:文本生成,问答。这种模型被称为ALM(Autoregressive Language Model)。常见模型有:GPT-3, OPT,PaLM,BLOOM。这类模型还可以完成知识密集型任务,CodeX 用于代码生成,BloombergGPT 用在金融领域。

论文:大语言模型综述

大语言模型主要体现在模型参数量大,GPT-3拥有1750亿参数;

大模型的涌现能力:

1. 上下文学习(ICL, in-context learning):可以从对话中学习和模仿

2. 指令微调 (Instruction tuning) :可以在特定数据集上微调以适应特定任务

3. 逐步推理 (使用思维链提示:CoT Chain-of-Thought):可以通过思维链提示逐步完成复杂任务

GPT 系列模型

GPT-1 是基于生成型的、仅解码器的 Transformer 架构开发的,采用了无监督预训练和有监督微调的混合方法。GPT-1 为 GPT 系列模型建立了核心架构,确立了对自然语言文本进行建模的基本原则,即预测下一个单词。

GPT-2 采用与 GPT-1 相同的架构,参数规模增加到 15 亿,并使用 web 数据展开训练。GPT-2 旨在通过无监督语言建模来执行任务,无需使用标记数据进行显示微调。为了推动这种方法,GPT-2引入多任务求解的概率形式,即在给定输入和任务信息的条件下预测输出:

P=\left ( output | input, task \right )

通过这样的建模方法,自然语言可以通用地作为格式化的输入,输出和任务信息,解决任务的过程也可以被视为生成解决方案文本的单词预测问题。

 GPT-2 与监督微调的 SOTA 模型相比仍有较大差距,尽管 GPT-2 旨在仅通过预训练完成任务,但在一段时间内仍需要进行下游任务微调来使用

GPT-3 (2020年)使用相似架构,参数量达到 1750 亿,论文第一次报道了大模型涌现的能力如ICL,被视为 PLM 到 LLM 进化过程中的一个重要里程碑。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值