你知道大模型发展史吗?

大语言模型和普通的语言模型有什么区别?

最本质的不同:就是涌现能力。

什么是涌现额能力?

1.上下文学习能力: In-Context Learnning,ICL,说白了是不需要训练,只需要指令(Instruction)或演示(demonstration)。

例子:给大模型的输入:请执行文本分类:{text},给大模型的输入:{text1}这个文本的类别是体育;{text2}这个文本的类别是政治;{text3}这个文本的类别是?

2.指令遵循/微调(Instruction tuning):给大模型的输入:请执行文本分类任务:{text1},再给大模型一个输入:请执行实体抽取任务{text2},测试一下大模型:请执行语义匹配任务{text3},{text4}。

3.逐步推理能力:小模型很难解决涉及多个推理步骤的复杂任务,尤其代码或者数学推理,大模型可以通过Chain-Of-Thought,COT,思维链。

2.大模型分为几种分支?

1.编码器模型 Encoder-only;
2.解码器模型 Decoder-only;
3.编码器解码器 Encoder-Decoder;

2.1编码器模型

最早起源于2019年BERT横空出世,全球首个重磅级模型,BERT诞生的前后脚GPT-1解码器模型(不是很好用),没人理会GPT-1, 全球开始紧随BERT的工作,提出了ALBERTa,RoBERTa, Electra, ERNIE(百度)等等,DeBERTa前几年的工作。

2.2 解码器模型

  • GPT-1与BERT几乎同一时间诞生的,采用解码器模型策略,效果一般般。
  • GPT-2把参数规模增加到了15亿,效果还不错。
  • GPT-3把参数增加到了1570亿参数,首次提出了ICL这一概念,让模型能够以小样本或者零样本的方法使用LLM,GPT-3可以看作是从PLM到LLM的一个里程碑。
  • Coddex:Open-AI在2021年7月推出的,在大量的GitHub代码上微调模型,使得模型具有逻辑推理能力(大模型首次具有思维链即逻辑推理能力)
  • 与人类对齐:使用PPO,近端策略优化(Proximal Policy Optimal,PPO)在2017年7月发表的,基于这次额工作,提出了InstructGPT在2022年1月,正式建立了与人类对齐的训练算法。
  • ChatGPT:水到渠成。
  • GPT-4:2023年的3月发布了GPT-4是首个具有多模态能力的大模型。Gemini等多模态大模型如雨后春笋纷至沓来。

ChatGPT已经大一统所有NLP任务了:
文本分类
{text}。当前文本的分类是———— 文本分类→next token prediction
{text}。当前文本中包含的实体———— 信息抽取→next token prediction
{text1}和{text2}之间的关系为———— 语义匹配→next token predection

🔺得出两个结论:

  • 没有一项idea是前无古人后无来者,鹤立鸡群,独树一帜的,站在前人工作的基础上想,不要一拍脑袋特立独行。
  • 真正的伟大的科研工作并不是追随热点,真正的伟大的科研工作是定义热点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值