【Datawhale组队学习】2023年11月动手学大模型应用开发 —— 第一章大模型简介

最新推荐文章于 2024-06-26 11:44:26 发布

zadarmo_

最新推荐文章于 2024-06-26 11:44:26 发布

阅读量333

点赞数

分类专栏：深度学习文章标签：学习

本文链接：https://blog.csdn.net/destiny_balabala/article/details/134389571

版权

深度学习专栏收录该内容

21 篇文章 3 订阅

订阅专栏

一、大模型基本概念

大语言模型（英文：Large Language Model，缩写LLM），也称大型语言模型，是一种人工智能模型，旨在理解和生成人类语言。

通常，大语言模型 (LLM) 指包含数百亿（或更多）参数的语言模型，这些模型在大量的文本数据上进行训练。

国外的大模型有：

GPT-3
GPT-4
PaLM
Galactica
LLaMA

国内的大模型有：

ChatGLM
文心一言
通义千问
讯飞星火

尽管大型语言模型（例如拥有 1750 亿参数的 GPT-3 和 5400 亿参数的 PaLM）与小型语言模型（例如 BERT 的 3.3 亿参数和 GPT-2 的 15 亿参数）使用相似的架构和预训练任务，但它们展现出截然不同的能力，尤其在解决复杂任务时表现出了惊人的潜力，这被称为“涌现能力”。

二、大模型的能力和特点

2.1 涌现能力

上下文学习：上下文学习能力是由 GPT-3 首次引入的。这种能力允许语言模型在提供自然语言指令或多个任务示例的情况下，通过理解上下文并生成相应输出的方式来执行任务，而无需额外的训练或参数更新。
指令遵循：通过使用自然语言描述的多任务数据进行微调，也就是所谓的指令微调，LLM 被证明在同样使用指令形式化描述的未见过的任务上表现良好。这意味着LLM能够根据任务指令执行任务，而无需事先见过具体示例，这展示了其强大的泛化能力。
逐步推理：小型语言模型通常难以解决涉及多个推理步骤的复杂任务，例如数学问题。然而，LLM通过采用"思维链"推理策略，可以利用包含中间推理步骤的提示机制来解决这些任务，从而得出最终答案。据推测，这种能力可能是通过对代码的训练获得的。

2.2 支持多元应用的能力

借助于海量无标注数据的训练，获得可以适用于大量下游任务的大模型（单模态或者多模态）。这样，多个应用可以只依赖于一个或少数几个大模型进行统一建设，提高研发效率。

三、常见大模型

闭源：

所属公司	模型名称
OpenAI	GPT系列
Anthropic	Claude 系列
Google	PaLM 系列
百度	文心一言
科大讯飞	星火大模型

开源：

所属公司	模型名称
Meta	LLaMA 系列
清华 & 智谱AI等	GLM 系列
阿里巴巴	通义千问
百川智能	Baichuan 系列

四、大模型应用场景

领域	应用场景
自然语言处理	文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手
信息检索	改进搜索引擎

五、什么是LangChain？

LangChain 框架是一个开源工具，充分利用了大型语言模型的强大能力，以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口，从而简化应用程序的开发流程。具体来说，LangChain 框架可以实现数据感知和环境互动，也就是说，它能够让语言模型与其他数据来源连接，并且允许语言模型与其所处的环境进行互动。

LangChian 作为一个大语言模型开发框架，可以将 LLM 模型（对话模型、embedding模型等）、向量数据库、交互层 Prompt、外部知识、外部代理工具整合到一起，进而可以自由构建 LLM 应用。LangChain主要由6部分组成：

模型输入/输出（Model I/O）：与语言模型交互的接口
数据连接（Data connection）：与特定应用程序的数据进行交互的接口
链（Chains）：将组件组合实现端到端应用
记忆（Memory）：用于链的多次运行之间持久化应用程序状态
代理（Agents）：扩展模型的推理能力。用于复杂的应用的调用序列
回调（Callbacks）：扩展模型的推理能力。用于复杂的应用的调用序列

zadarmo_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Datawhale组队学习】2023年11月动手学大模型应用开发 —— 第一章大模型简介

LangChain 框架是一个开源工具，充分利用了大型语言模型的强大能力，以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口，从而简化应用程序的开发流程。具体来说，LangChain 框架可以实现数据感知和环境互动，也就是说，它能够让语言模型与其他数据来源连接，并且允许语言模型与其所处的环境进行互动。LangChian 作为一个大语言模型开发框架，可以将LLM 模型（对话模型、embedding模型等）、向量数据库交互层 Prompt外部知识外部代理工具。
复制链接

扫一扫