你知道大模型发展史吗？

summer_8102

于 2024-06-13 11:31:20 发布

阅读量646

点赞数 10

文章标签：人工智能 ai nlp chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41715032/article/details/139648011

版权

文章目录

大语言模型和普通的语言模型有什么区别？
2.大模型分为几种分支？
- 2.1编码器模型
- 2.2 解码器模型

大语言模型和普通的语言模型有什么区别？

最本质的不同：就是涌现能力。

什么是涌现额能力？

1.上下文学习能力： In-Context Learnning,ICL,说白了是不需要训练，只需要指令（Instruction）或演示（demonstration）。

例子：给大模型的输入：请执行文本分类：{text}，给大模型的输入：{text1}这个文本的类别是体育；{text2}这个文本的类别是政治；{text3}这个文本的类别是？

2.指令遵循/微调（Instruction tuning）:给大模型的输入：请执行文本分类任务：{text1}，再给大模型一个输入：请执行实体抽取任务{text2}，测试一下大模型：请执行语义匹配任务{text3}，{text4}。

3.逐步推理能力：小模型很难解决涉及多个推理步骤的复杂任务，尤其代码或者数学推理，大模型可以通过Chain-Of-Thought，COT,思维链。

2.大模型分为几种分支？

1.编码器模型 Encoder-only；
2.解码器模型 Decoder-only；
3.编码器解码器 Encoder-Decoder;

2.1编码器模型

最早起源于2019年BERT横空出世，全球首个重磅级模型，BERT诞生的前后脚GPT-1解码器模型（不是很好用）,没人理会GPT-1, 全球开始紧随BERT的工作，提出了ALBERTa，RoBERTa， Electra, ERNIE(百度)等等，DeBERTa前几年的工作。

2.2 解码器模型

GPT-1与BERT几乎同一时间诞生的，采用解码器模型策略，效果一般般。
GPT-2把参数规模增加到了15亿，效果还不错。
GPT-3把参数增加到了1570亿参数，首次提出了ICL这一概念，让模型能够以小样本或者零样本的方法使用LLM,GPT-3可以看作是从PLM到LLM的一个里程碑。
Coddex：Open-AI在2021年7月推出的，在大量的GitHub代码上微调模型，使得模型具有逻辑推理能力（大模型首次具有思维链即逻辑推理能力）
与人类对齐：使用PPO，近端策略优化（Proximal Policy Optimal,PPO）在2017年7月发表的，基于这次额工作，提出了InstructGPT在2022年1月，正式建立了与人类对齐的训练算法。
ChatGPT：水到渠成。
GPT-4：2023年的3月发布了GPT-4是首个具有多模态能力的大模型。Gemini等多模态大模型如雨后春笋纷至沓来。

ChatGPT已经大一统所有NLP任务了：
文本分类
{text}。当前文本的分类是———— 文本分类→next token prediction
{text}。当前文本中包含的实体———— 信息抽取→next token prediction
{text1}和{text2}之间的关系为———— 语义匹配→next token predection

🔺得出两个结论：

没有一项idea是前无古人后无来者，鹤立鸡群，独树一帜的，站在前人工作的基础上想，不要一拍脑袋特立独行。
真正的伟大的科研工作并不是追随热点，真正的伟大的科研工作是定义热点。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。