10分钟了解大模型应用全貌 : 大模型应用架构（LLM application architecture）

大模型学习

于 2025-03-02 11:45:00 发布

阅读量893

点赞数 24

文章标签：架构 microsoft 产品经理 chatgpt 人工智能自然语言处理大数据

本文链接：https://blog.csdn.net/CSDN_430422/article/details/145939559

版权

大型语言模型（LLM）在应用中有着复杂的架构，它不仅涉及基本的输入输出.

还包括安全过滤、提示优化和示例选择等多个关键组件，以确保响应的安全性与准确性。通过与外部工具的结合和多模型协作，大模型（LLM）能够弥补知识盲点并提高处理效率。通过结构化输出、向量数据库以及记忆和缓存技术的引入，进一步增强了模型的能力和系统的性能。

在终端用户的使用感受中，通常，使用一个简单的提示词作为输入，大模型（如GPT）接收后返回给用户对应结果。

大模型应用基本架构

然而，基于LLM的应用的整体结构比这要复杂得多。这其中包括安全性问题、同时调用多个模型的需求、以及与外部API或搜索引擎的链接能力。

这种复杂性意味着在设计和维护这些应用程序时，开发者需要考虑多个层面的交互和集成，确保系统的稳定性和安全性，同时还要处理不同模型和外部服务之间的数据流动和功能协调。这些因素共同构成了基于LLM的应用程序的复杂性。

大模型应用完整架构

在每一次的聊天场景中，我们往往不是简单地通过一个单一的提示词调用一次大模型（LLM），而是可能根据问题的具体情况，创建多个定制化的示例。然后通过采用一种选择机制，对同一查询向多个不同的大模型（LLM）发出请求，然后从它们提供的多个答案中筛选出最恰当的一个。

这个流程确保了我们能够从多个模型的输出中提取最有价值的信息。

为了弥补大模型（LLM）可能的知识盲点，我们还会利用外部数据源，比如搜索引擎，RAG组件，来搜索大模型（LLM）尚未学习到的信息，并将其整合到我们的答案中。这种方法不仅扩展了大模型（LLM）的知识库，也使得我们的系统能够更全面地回答用户的问题。通过这些策略，我们能够更有效地利用大模型（LLM），为用户提供更准确、更可靠的服务。

整个架构图中使用的关键组件如下：

1 安全过滤器

在机器人对话的情况下，有必要确定提问和回答是否适当。

例如，涉及性、暴力或相互诽谤的内容必须在输入阶段进行过滤，同样，LLM的输出也必须进行过滤，以防止不适当的内容被输入或提供。

安全过滤器的实现依赖以下几种技术：

(1) 关键词过滤

使用一个敏感词库来检测输入或输出中是否包含违规内容。

例如：禁止出现“暴力”、“色情”、“黑客”等关键词。如果匹配到关键词，可以拒绝处理或给出提醒。

(2) 正则表达式检测

通过正则表达式匹配特定模式

比如：检测代码注入攻击（SELECT .* FROM 等 SQL 语句）。检测 URL 或恶意链接。

(3) 机器学习模型辅助过滤

训练分类模型或检测模型，用于识别复杂的敏感内容。

文本分类：通过模型判断输入是否包含仇恨言论、色情内容、恐怖主义等。
图像识别：对于图片输入，可以用计算机视觉技术检测不合规内容。

(4) 自然语言理解 (NLP) 技术

语义分析 ：基于上下文理解是否存在隐含的敏感内容。

例如，用户输入“如何报复某人”可能需要被阻止，尽管表面看起来没有敏感词。
语气检测 ：识别输入或输出是否包含攻击性语气或偏见。

(5) 动态规则和场景化策略

安全过滤器的规则可以动态调整：

场景化：针对不同业务场景应用不同的过滤规则。例如，医疗问答系统需要特别关注虚假医学信息。
风险等级分级：根据输入的风险程度，触发不同级别的过滤和警报。

过滤必须能够根据情况调整强度。根据客户倾向或用例，调整过滤强度为强或弱。

特别是在与用户直接交互的聊天机器人案例中，这些安全过滤功能非常重要，但许多基础应用往往省略了这些功能。

2 提示模板

提示词模板是提升语言模型能力的核心工具。它通过清晰的结构、上下文和限制条件，帮助模型生成符合场景需求的回答。

在设计模板时，应该根据具体任务和目标，选择合适的格式、示例和约束条件，以获得最优效果。

例如，一个简单的提示词模板：

“你是一名专业的历史学家，请用简洁的语言解释以下问题：{ 用户输入的问题 }”

这为模型提供了角色（历史学家）、输出风格（简洁）、任务背景（历史问题）。

这样在提问历史问题的时候，只需要修改问题就可以，这种将提示中更改的部分转换为变量并使用的方法称为提示模板

在少样本提示(few-shot prompting) 场景中，模板中可以加入示例（如后文的“示例选择器”部分）。

提示词模板

3 示例选择器

一种常见的提升性能的提示技术是将示例作为提示的一部分，这被称为少样本提示（few-shot prompting）。

示例选择器是一个用于选择和使用示例的机制。它通常涉及从大量可能的示例中选择一个或多个具有代表性、相关性和质量的例子，以便引导模型生成更准确、相关或个性化的输出。

就像是一个智能的图书管理员，它帮助我们从一大堆书（示例）中挑选出最适合当前问题的书（示例）。

想象一下，你问了一个关于烹饪的问题，图书管理员会从成千上万本书中找到几本最相关、最能帮助你的烹饪书籍。

这个过程就是示例选择器的工作

场景举例：文本生成任务（生成文章）

假设我们的任务是要根据一个简单的提示生成一篇文章，提示词是：

提示词： “如何提高工作效率”

示例选择器 会根据提示词（“如何提高工作效率”）从候选示例中选择最相关的文本：

示例 1 提高工作效率的一个有效方法是进行时间管理。你可以使用番茄工作法，通过集中精力工作25分钟，然后休息5分钟，来提高注意力和生产力。。
示例 2 在工作中，良好的团队沟通至关重要。通过定期的会议和明确的任务分配，团队成员可以有效合作，从而提高整体的工作效率。
示例 3 运动有助于减轻压力，改善身心健康。每天进行适度的运动，如跑步或瑜伽，有助于你更好地应对工作中的挑战，提高效率。

示例选择器 会选择 示例 1 作为最相关的例子，因为它直接回答了如何提高工作效率，并且方法具体。

一旦选择了合适的示例，模型就可以根据该示例生成相关的文章。

模型会参考示例 1 中的内容，并围绕“提高工作效率”展开更深入的讨论，形成一篇完整的文章。

例如：

生成的文章： “提高工作效率的方法有很多，其中最有效的方式之一就是时间管理。时间管理可以帮助你合理安排工作时间，减少拖延。番茄工作法是一种非常流行的时间管理技巧。它要求你专注工作25分钟，然后休息5分钟，这种方法能够帮助你集中精力，提高工作效率。此外，合理的任务分配和目标设定也是提升工作效率的重要因素。通过这些方式，你不仅能提高工作效率，还能减少疲劳感，提升工作质量。”

4 Agent

在大模型应用中，Agent（智能代理）发挥着至关重要的作用，其核心功能涉及规划、记忆和工具的综合使用，以执行复杂任务并增强LLM（大型语言模型）的能力。

规划（Planning）：Agent需要具备规划能力，能够将复杂任务分解为多个子目标（Subgoal Decomposition），并通过思维链（Chain of Thought）进行连续推理。同时，Agent还具备自我反思能力（Self-critics），对过去的行动进行评估和修正，确保任务执行的高效性和准确性。
记忆（Memory）：Agent拥有短期和长期记忆功能。短期记忆与当前任务上下文密切相关，有助于即时响应和动态调整；而长期记忆则利用外部向量数据库存储和检索信息，使Agent能够在跨会话或长期任务中持续使用先前的经验和知识。
工具（Tool）：Agent可以调用多种外部工具，如日历、搜索引擎、计算器等，来扩展其能力。由于LLM的知识在预训练后是固定的，外部工具的整合使Agent能够执行更复杂的任务，如实时数据查询或计算任务。

任务执行过程：Agent首先接收任务并更新记忆，然后通过规划模块生成任务执行计划，决定需要调用哪些工具及其参数。工具执行后，Agent将结果整合进记忆，并在必要时更新任务状态，最终总结并提供结论。

通过这些机制，Agent不仅弥补了LLM在动态和复杂任务中的局限，还使得大模型能够在实时互动中展现更高的灵活性、准确性和智能化。

5 LLM模型编排

在一般任务中，可以使用一个LLM，但在某些情况下，可以同时使用多个LLM模型。

编排系统负责协调这些模型之间的交互，确保数据在模型之间高效流动。

功能：

任务分解：

将用户请求分解为多个子任务，并分发给不同的模型。例如：

一个模型负责理解问题的上下文。

一个模型负责提取信息。

一个模型负责生成输出。
多模型组合：

不同模型有不同的专长（比如 GPT 负责生成语言，特定领域的模型处理领域问题）。

编排器可以动态决定调用哪个模型。

例子：

大模型调度

6 结构化输出

结构化输出指的是让大模型生成具有明确结构、组织良好的输出，而不仅仅是连续的自然语言文本。输出通常以某种预定义的格式呈现，如表格、列表、JSON 格式或其他类型的结构化数据

举例说明：

假设我们要求模型生成一个 电影信息 的列表

输入提示词： 列出几部经典的科幻电影

模型输出（非结构化文本）：

《星际穿越》是由克里斯托弗·诺兰执导的一部经典科幻电影。该片讲述了人类为了生存而穿越宇宙的故事。

《2001太空漫游》是斯坦利·库布里克的经典之作，探讨了人工智能与人类未来的关系。

这是一个连贯的自然语言描述，但缺乏明确的结构，机器处理起来可能会比较困难。

生成结构化输出：

输入提示词：列出几部经典的科幻电影，格式为JSON

模型输出（结构化输出，JSON 格式）：

[     {       "title": "星际穿越",       "director": "克里斯托弗·诺兰",       "release_year": 2014,       "genre": "科幻",       "description": "讲述人类为了生存穿越宇宙的故事。"     },     {       "title": "2001太空漫游",       "director": "斯坦利·库布里克",       "release_year": 1968,       "genre": "科幻",       "description": "探讨人工智能与人类未来的关系。"     }   ]

7 向量数据库

向量数据库是专门设计来存储和管理高维向量数据的数据库系统，主要用于高效的相似性搜索和数据检索。

在大模型应用中，向量数据库发挥着重要作用，尤其是在需要处理大量信息并根据相似度快速查找相关数据时

大模型一种与外部系统连接的方法是检索增强生成（Retrieval-Augmented Generation）技术。

它通过整合外部知识源来增强传统的大语言模型 (LLM)。这种方法拓宽了人工智能的视野，使其能够访问和利用除初始训练数据之外的大量信息。可以将 RAG 想象为一位学者，除了拥有自己的知识外，还可以即时访问到一座全面的图书馆。

RAG将文档嵌入信息存储在向量数据库中，搜索与问题相关的段落或页面，给用户提供答案。

8 记忆

Memory的本质是让AI系统能够在对话过程中保持上下文连贯性，记住之前的交互内容，并能够合理利用历史信息。它解决了LLM无状态的局限性。

然而，LLM模型无法存储所有对话内容，因为输入标记的数量有限，从功能角度看，Memory主要实现以下几种记忆类型

短期记忆是指在当前对话session中的即时记忆，比如最近几轮对话内容。实现方式通常是维护一个对话历史队列，将对话内容传入给LLM作为上下文。

长期记忆则是跨会话的持久化存储。通常使用向量数据库来实现，将重要的对话内容和信息转换为向量存储起来。当需要时，通过相似度检索找到相关的历史信息。

工作记忆是指在完成特定任务过程中需要暂时记住的信息。比如在多轮对话中完成一个表单填写，需要记住用户已经提供的字段信息。这通常通过状态管理来实现。

情景记忆用于存储用户偏好、习惯等个性化信息。这些信息可以帮助AI系统提供更加个性化的服务。比如记住用户常用的话语风格，喜好的主题等。

Memory系统面临的主要挑战包括：如何在保持记忆量和系统性能之间取得平衡；如何判断信息的重要性；如何处理可能过时或矛盾的信息；如何在隐私和功能之间权衡。

9 缓存

LLM Cache是大语言模型系统中的性能优化组件，它的主要目的是提高系统响应速度并降低计算成本。

在查询LLM时，有时会多次提出相似或相同的问题。

例如，在开发过程中，您可能在调试时多次调用LLM使用相同的提示。如果您发送相同的问题，您将得到相同的答案

或者，在类似场景中，如果其他用户提出类似问题，可能没有必要再次调用LLM模型。

例如，“山西黑神话打卡地的详细信息？”、“山西黑神话打卡地是哪里？”

由于这类问题需要相同的答案，类似问题可以通过缓存减少LLM调用的次数。

缓存的粒度可以有多个层次：最简单的是精确匹配缓存，只有完全相同的输入才会命中缓存；更复杂的是语义相似缓存，通过向量相似度来判断输入是否足够相似可以使用缓存结果；还可以实现部分匹配缓存，对提示词的关键部分进行匹配。

那么，如何系统的去学习大模型LLM？

作为一名深耕行业的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！