你知道大模型发展史吗?

大语言模型和普通的语言模型有什么区别?

最本质的不同:就是涌现能力。

什么是涌现额能力?

1.上下文学习能力: In-Context Learnning,ICL,说白了是不需要训练,只需要指令(Instruction)或演示(demonstration)。

例子:给大模型的输入:请执行文本分类:{text},给大模型的输入:{text1}这个文本的类别是体育;{text2}这个文本的类别是政治;{text3}这个文本的类别是?

2.指令遵循/微调(Instruction tuning):给大模型的输入:请执行文本分类任务:{text1},再给大模型一个输入:请执行实体抽取任务{text2},测试一下大模型:请执行语义匹配任务{text3},{text4}。

3.逐步推理能力:小模型很难解决涉及多个推理步骤的复杂任务,尤其代码或者数学推理,大模型可以通过Chain-Of-Thought,COT,思维链。

2.大模型分为几种分支?

1.编码器模型 Encoder-only;
2.解码器模型 Decoder-only;
3.编码器解码器 Encoder-Decoder;

2.1编码器模型

最早起源于2019年BERT横空出世,全球首个重磅级模型,BERT诞生的前后脚GPT-1解码器模型(不是很好用),没人理会GPT-1, 全球开始紧随BERT的工作,提出了ALBERTa,RoBERTa, Electra, ERNIE(百度)等等,DeBERTa前几年的工作。

2.2 解码器模型

  • GPT-1与BERT几乎同一时间诞生的,采用解码器模型策略,效果一般般。
  • GPT-2把参数规模增加到了15亿,效果还不错。
  • GPT-3把参数增加到了1570亿参数,首次提出了ICL这一概念,让模型能够以小样本或者零样本的方法使用LLM,GPT-3可以看作是从PLM到LLM的一个里程碑。
  • Coddex:Open-AI在2021年7月推出的,在大量的GitHub代码上微调模型,使得模型具有逻辑推理能力(大模型首次具有思维链即逻辑推理能力)
  • 与人类对齐:使用PPO,近端策略优化(Proximal Policy Optimal,PPO)在2017年7月发表的,基于这次额工作,提出了InstructGPT在2022年1月,正式建立了与人类对齐的训练算法。
  • ChatGPT:水到渠成。
  • GPT-4:2023年的3月发布了GPT-4是首个具有多模态能力的大模型。Gemini等多模态大模型如雨后春笋纷至沓来。

ChatGPT已经大一统所有NLP任务了:
文本分类
{text}。当前文本的分类是———— 文本分类→next token prediction
{text}。当前文本中包含的实体———— 信息抽取→next token prediction
{text1}和{text2}之间的关系为———— 语义匹配→next token predection

🔺得出两个结论:

  • 没有一项idea是前无古人后无来者,鹤立鸡群,独树一帜的,站在前人工作的基础上想,不要一拍脑袋特立独行。
  • 真正的伟大的科研工作并不是追随热点,真正的伟大的科研工作是定义热点。
  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习模型发展史可以追溯到上世纪80年代。以下是深度学习模型的主要发展里程碑: 1. 多层感知机(Multilayer Perceptron,MLP):多层感知机是最早的深度学习模型之一,它由多个神经网络层组成,每个层都包含多个神经元。然而,由于当时计算资源有限,深度学习的发展受到了限制。 2. 反向传播算法(Backpropagation):在1986年,反向传播算法被提出,它是训练多层神经网络的关键技术。反向传播算法通过计算损失函数对网络参数的梯度,从而实现网络的优化。 3. 卷积神经网络(Convolutional Neural Networks,CNN):在1998年,Yann LeCun等人提出了卷积神经网络,它在图像识别任务上取得了突破性的成果。CNN通过卷积层和池化层来提取图像特征,并通过全连接层进行分类。 4. 深度置信网络(Deep Belief Networks,DBN):在2006年,Geoffrey Hinton等人提出了深度置信网络,它是一种无监督学习模型。DBN通过逐层贪婪训练和受限玻尔兹曼机来学习数据的分布特征。 5. 递归神经网络(Recurrent Neural Networks,RNN):递归神经网络是一种具有循环连接的神经网络结构,能够处理序列数据。RNN通过记忆之前的信息来预测未来的输出,适用于自然语言处理和语音识别等任务。 6. 长短期记忆网络(Long Short-Term Memory,LSTM):LSTM是一种特殊的递归神经网络结构,能够有效地解决传统RNN中的梯度消失和梯度爆炸问题。LSTM通过门控机制来控制信息的流动,使得网络可以长期记忆和处理长序列。 7. 生成对抗网络(Generative Adversarial Networks,GAN):生成对抗网络由Ian Goodfellow等人于2014年提出,它由生成器和判别器两个模型组成。生成器试图生成逼真的样本,而判别器则试图区分真实样本和生成样本。GAN在图像生成、图像修复等领域取得了显著的成果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值