AI大模型架构设计全解析:LLM Agent实战深度剖析

文章目录
    • LLM大模型Agent剖析和应用案例实战
      • 1 从 LLM 大模型到智能体演进技术
        • 语言模型是什么?
        • 大语音模型是什么?
        • 大语言模型日新月异
        • LLM大模型存在局限性
        • LLM Agent来势凶凶
        • LLM Agent增长迅猛
        • LLM Agent是什么?
      • 2 LLM Agent 架构深度剖析
        • 规划能力是什么?
        • 记忆能力是什么?
        • 工具使用能力是什么?
      • 3 LLM Agent 应用案例实战
        • Auto-GPT
        • 基于 LangChain 实现一个 Code Interpreter

LLM大模型Agent剖析和应用案例实战

1 从 LLM 大模型到智能体演进技术
语言模型是什么?
  • 语言模型:给定一些字或者词(称为 token),预测下一个字或者词的模型

image.png

大语音模型是什么?
  • 大语言模型(Large Language Model, LLM)是一类基于深度学习的语言模型,它们在大量的文本数据上进行训练,可以完成各种任务,包括代码编写、总结、翻译等。LLM 的特点是规模庞大,包含数十亿的参数,帮助它们语言数据中的复杂模式。

image.png

大语言模型日新月异

image.png

LLM大模型存在局限性
  • 简单的推理也会犯错?
  • 多聊几句就忘记历史信息了?
  • 写了代码能不能运行验证下?

image.png

LLM Agent来势凶凶

image.png

  • Agent = LLM(大语言模型,就好比人的大脑) + Plan(规划能力)+Memory(记忆能力)+Tools(工具使用能力)
LLM Agent增长迅猛

image.png

LLM Agent是什么?
  • LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人),集成了规划、记忆、工具使用等能力。
    • 规划能力
      • 既然 LLM 难以直接处理复杂任务,一个直接的思想就是将任务进行拆解,通过实现几个小目标从而实现一个目标。此外,LLM Agent 可以对过去的行为自我批判和反思,从错误中吸取教训,并对未来的行为进行改进,从而提升最终的效果。
    • 记忆能力
      • 既然 LLM 的上下文有限,扩展其记忆能力肯定不可或缺。
    • 工具使用能力
      • 如果能够让 LLM 既能帮你写代码,还能帮你跑代码,那这样一个智能体的发挥空间就取决于你的想象力了。

LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人),集成了规划、记忆、工具使用等能力。

image.png

2 LLM Agent 架构深度剖析
规划能力是什么?
  • 规划能力,本质上希望激发 LLM 的最大潜能,“引导”或者“提示” LLM 更好地回答问题,因为规划能力很大一部分还在 Prompt Engineering 上。

【方式一】任务拆解

  • 就是把任务分成一步一步来执行,一步一步像一条链吗?——CoT 思维链

image.png

CoT任务拆解的缺陷是什么?

  • 链式任务拆解方式可能忽略一些潜在情况,因为一步之后只能选择往下一步,没有多种选择余地。

image.png

任务拆解三种方式

  • 让 LLM 自己来拆解,比如前面的 ToT Prompt,还有常见的拆解 Prompt,“Step for XYZ”等
  • 任务相关的引导,比如写小说,可以让 LLM 写一个小说的大纲 “Write a story outline.”
  • 用户自己分解任务,类似 CoT,自己写出满意的步骤再让 LLM 来模仿

LLM和传统规划方式结合

image.png

【方式二】自我反思

  • 当我做事情时,做对或者做错都会让我们思考怎么做得更好
  • 从 Agent 的角度出发,接收一个观测(Observation),给出一个动作(Action)(强化学习的感觉)

image.png

  • 告诉 LLM 应该按照“思考-行动-观测”的方式来获得最终的回答
    • few-shot Learning + 提供 thought

举个🌰

image.png

记忆能力是什么?

LLM的记忆是什么?

  • 训练数据 -> 模型参数(fixed) —— 长期记忆
  • 上下文提示(Context),我们喂给 LLM 信息的地方—— 短期记忆
    • 记忆容量(上下文长度)有限,“按需投喂”:先存后取

LLM + 向量数据库

  • -> 向量数据库的核心思想是将文本转换成向量(Embedding),然后将向量存储在数据库中。
  • -> 讲用户输入的问题转成向量,然后在数据库中国检索最相似的向量,以及向量对应的文本(记
    忆),返回给 LLM,生成回答。

image.png

举个🌰

image.png

当“记忆”非常多时,如何在大量“记忆”力快速找到最相关的那些“记忆”?

  • 近似最近邻(Approximate Nearest Neighbor)
    • 牺牲了精度,换取了速度
    • ANN 多种实现:局部敏感哈希、乘积量化等
    • 核心思想通过某种方式,将数据的特征压缩或分组,在搜索时,只需在部分数据中寻找最近邻
      在这里插入图片描述
工具使用能力是什么?

工具使用能力

  • 巧妇难为无米之炊,仅靠 LLM 自身能做的事情还是比较有限,比如:LLM 可以帮忙写代码,但是无法执行代码,因此要让 LLM 能做更多事情,就需要借它点工具。

image.png

工具使用能力-function calling

  • 开发者定义一个第三方函数(自定义工具)
  • 调用 OpenAPI 时,把第三方函数作为参数传给 LLM
  • LLM 判断何时需要调用第三方函数(注意:LLM 只是判断,然后由开发者来执行)
  • 开发者调用第三方函数后,要把返回值传给模型(再次调用 OpenAI API)
  • 此时 LLM 的返回值则是最终的回答

image.png

工具使用能力-HuggingGPT

  • 理解用户自然语言指令,并计划分配任务
  • 根据 Hugging Face 上的模型描述,选择合适的工具(AI 模型)
  • 调用 AI 模型执行子任务
  • 整合结果并返回结果

image.png

3 LLM Agent 应用案例实战
Auto-GPT
  • Auto-GPT 是一个开源的实验性项目,它算是 LLM Agent 的一个标准雏形了,包括前面提前的各种能力(规划、记忆、使用工具),可以根据用户的目标让 GPT-4 实现完全自主运行。

image.png

  • Auto-GPT 的效果很大程度上归功于它复杂的 Prompt 工程,主要包含几个部分:

    • 需要设定交给 Auto-GPT 完成的目标
    • 调用 API 花费的预算
    • 一些 LLM 需要遵守的规则(约束)
    • 可以调用的工具(API)
    • 返回需要格式

image.png

Auto-GPT 的输出

image.png

  • 可以看出,这里既有任务拆解,也有反思,同时还具有调用外部工具的能力,而记忆能力(向量数据库)虽然这里不能直接体现出来,但是 Auto-GPT 也是具备的。

Auto-GPT 的主要框架设计

image.png

  • 可以看出,创建一个初始的计划,然后进入主循环。系统会让模型判断在当前计划下该进行何种行动,接着会执行行动。执行完毕后,结果会写入下一次循环中。如此,每次决策都会基于之前的结果、记忆和计划,从而制定出新的行动方案。
基于 LangChain 实现一个 Code Interpreter
  • LLM Agent 技术架构设计和应用实现——对于 IT人来说是一项非常重要的技能,它可以让您的 LLM 业务研发更高效和创新。

image.png

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值