一文了解大模型的三种类型

最新推荐文章于 2025-04-12 17:08:05 发布

IT大头

最新推荐文章于 2025-04-12 17:08:05 发布

阅读量1w

点赞数 15

分类专栏：大模型微调实战文章标签：人工智能语言模型 chatgpt 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45156060/article/details/140517382

版权

大模型微调实战专栏收录该内容

14 篇文章

订阅专栏

大模型的发展至今，吸引了众多初学者的加入。其中，有小伙伴提出疑问：“有些大模型会同时开源三种模型，这些不同类型模型的区别是什么呢？”，那么本文将简要介绍LLM中的三种重要模型：基座模型（base）、聊天模型（chat）和指令模型（instruct）。

一、base模型

base模型，也被称为基基座模型或平台模型，是通过在大量无标注数据上进行预训练，从而学习到广泛语言特征的模型。这些模型拥有庞大的参数规模，能够在多种任务上展现出卓越的性能，无需从零开始训练。

特点

大规模预训练：利用海量数据集，学习语言结构和模式。
泛化能力强：适用于多种NLP任务，如问答、文本分类、翻译等。
可微调性：通过少量数据即可针对特定任务进行调整。

示例

GPT-3：生成式预训练变换器，擅长生成连续文本。
GLM：具备多模态能力，能处理图像和文本数据。

白话解释

一名大学生在校期间阅读了图书馆中的所有的书，他脑子里有很多的知识，但是他只读书，是不能通过考研的。

二、chat模型

Chat模型，即对话模型，专为处理人机交互而设计。这类模型能够理解上下文，维持对话历史，生成连贯且情境相关的响应。

特点

上下文感知：理解对话历史，保持连贯性。
互动性：能够进行多轮对话，解答复杂问题。
创意生成：创作故事、诗歌或提供个性化建议。

示例

ChatGPT：由OpenAI开发，基于GPT架构的聊天机器人，能够进行高质量的对话交流。

白话解释

这名大学生在拥有海量知识后，又学习了一些与人交流的方式，也就是交流模板后，他已经可以见人说人话，见鬼说鬼话，同时也刷了一下过往考研题目，已经具备了考研能力了。

三、instruct模型

指令模型是能够理解和执行人类自然语言指令的模型。它们经过专门训练，能够识别并执行多样化的指令，从简单的查询到复杂的任务执行。

特点

指令解析：准确识别和理解复杂的自然语言指令。
任务执行：能够完成查询、文档修改、设备控制等任务。
定制化能力：在特定指令集上进行训练或微调。

示例

LACES问题模型：用于改进模型的问题理解和响应能力。
SFT（Supervised Fine-Tune）：监督式微调方法，提升指令执行准确性。

白话解释

就是一直刷题，让自己的知识和这个社会系统不断对齐的过程，也就是在chat的基础上不断加强和不断对齐。

👇点击关注AI疯人院公众号获取

更多技术信息~

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

IT大头 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。