大模型Agent智能体实操笔记,超干分享!

什么是大模型?

大模型,即 Large Language Model(LLM),运用深度学习技术,凭借互联网海量数据训练,参数量级高达数十亿至数万亿。这使得大模型能学习复杂细节,具备强大问题解决能力,跨领域能力出色,涵盖自然语言处理、图像识别等,比如:GPT 系列展示的智能对话与文本生成。其“多模态”特性覆盖文本、语音、图片、视频等格式,但训练需巨大计算资源、时间和成本,通常由大公司承担,类似移动互联网中的操作系统。

基础模型预训练后,针对特定任务还需微调以优化性能,该过程虽较预训练成本低,但仍具一定门槛。

目前国内外主要的大模型厂商及产品如下:

  1. OpenAI:GPT 系列, 最新的是 GPT-4o

  2. Anthropic:Claude,最新的 Claude 3.5

  3. Google:Gemini

  4. Meta:LLaMA

  5. Microsoft:与 OpenAI 合作,也推出了自己的大模型,比如:Phi-3

  6. 百度:文心一言

  7. 阿里巴巴:通义千问

  8. 腾讯:混元大模型

  9. 字节:豆包

  10. 清华智谱:GLM-4

此外,还有创业公司,比如:前段时间火了一把的月之暗面 Kimi。

什么是智能体 Agent?

大模型,比如:GPT 擅长处理多样任务,比如:解答、撰写文档、内容提炼及翻译,但直接面向大众略显不便。因此,类GPT聊天机器人应运而生,作为用户与大模型间的桥梁,尽管它们展示出广泛能力,聊天场景的通用性有时效率不高。

Agent 智能体,作为 AI 核心理念,代表着能感知环境、学习并自主决策以实现目标的实体,无论实体还是虚拟形态,皆展现出高度自主性和智能互动,类似科幻作品中的全能机械助手。

大模型(LLM)智能体,是一种利用大语言模型进行复杂任务执行的应用。如果将大模型(LLM)比作底层操作系统(i比如:iOS 和 Andriod)的话,那么智能体(Agent)就是上层 App。

基于大模型的智能体,则是自主学习、适应并决策的高级存在,无需持续人为干预,超越传统自动化局限,在动态环境中寻找创造性解决方案。将大模型视为操作系统,智能体便是其上的应用程序,工程技术团队正聚焦此领域,推动大模型智能体在复杂任务执行中的应用与发展。

Agent 智能体架构设计

在构建大模型智能体(LLM Agent)的过程中,LLM 扮演着核心控制器或“智慧中枢”的角色,统筹并指导完成任务和响应用户需求的全方位行动。智能体则通过激活 LLM 的强大功能执行任务,同时整合规划策略、记忆功能及高效工具运用等重要组件,共同协作实现既定目标。

大模型智能体框架的核心组件包括:

1. 用户交互界面:捕捉用户的询问或指令。

2. 核心智能体引擎:作为系统的指挥中枢,协调各功能模块。

3. 策略规划模块:为智能体规划后续行动路径。

4. 记忆系统:维护智能体的长期知识库与短期情境记忆。

5. 工具集成层:使智能体能与外界工具和服务互动,执行具体操作。

这些模块协同运作,使大模型智能体能够应对各类请求,无论简易或复杂,不仅直接回应查询,更能深入解析问题,执行多阶任务。智能体的这种广度与深度能力,在复杂信息处理、数据分析乃至视觉呈现等领域展现出巨大应用潜力。

下图提供了智能体架构的详尽视图。

对于没有接触过智能体的人,上述框架可能有点抽象,下面我们以一个例子来说明智能体的架构,假如我们想让AI完成以下任务:

用户:明天上午要去 A 地出差,下午与 X 开会,帮我订好机票、酒店和会议日程。
对于人类助理来说,这是很简单的事情,但以目前大模型的能力,还难以解决这个问题。而从技术角度来说,可以开发一个基于大模型的智能体来解决这类问题,这个智能体主要包含以下部分:
1. 规划:通过调用大模型的能力将任务分解,先分为出差行程安排和会议预约两个子任务。
    1.1 出差行程安排继续分解为:
       1.1.1 从用户所在地到所在城市机场:
          a. 其中用户所在地通过感知环境信息获得(可以通过用户初始设置或过往历史存放在记忆组件里面)
          b. 决定出行时间
          c. 决定出行方式:如乘坐出租车,预约
       1.1.2 从用户所在城市机场到A地机场:
          a. 决定出行时间
          b. 决定出行方式,预约
       1.1.3 从A地机场到A地某酒店:
          a. 预订A地某酒店
             1. 决定入住时间
          b. 决定从A地机场到达酒店方式:如乘坐出租车,预约
    1.2 会议预约继续分解为:
       1.2.1 查看用户和X的日程,找到二者都空闲的时间段
       1.2.2 确定会议时间,预约会议
2. 记忆:
    2.1 用户所在地应存放在长期记忆中。
    2.2 根据规划的分解,后面的步骤会依赖前面步骤的结果,那么需要把前面步骤的执行结果存放在短期记忆中。
3. 工具使用:
    3.1 通过调用网约车平台接口预约出租车(需要用户授权,授权信息也可以存储在长期记忆中)
    3.2 通过调用航班信息查询接口获取航班信息,调用航班预订接口订机票(需要用户授权,授权信息也可以存储在长期记忆中)
    3.3 通过调用OTA平台接口完成酒店预订(需要用户授权,授权信息也可以存储在长期记忆中)
    3.4 通过调用支付接口完成支付(需要用户授权,授权信息也可以存储在长期记忆中)
    3.5 通过调用日历接口完成日程查询和会议预订

智能体相关技术

网络上频繁提及的智能体技术,比如:TOT、提示链、RAG、ART、ReAct 等,虽归于提示词策略领域,却多应用于复杂智能体构建,非日常聊天场景常态。以下是这些术语的简化释义:

  1. TOT(思维树):升级版 COT,通过多路径探索问题解答,形成分步的树形结构,助AI全面考量得出最佳解。

  2. 提示链:串联各提示词以接力形式引导AI完成任务,层层递进实现目标。

  3. RAG(检索增强生成):融合信息检索与AI生成,先搜后创,利用内外部数据优化输出。

  4. ART(自动推理与工具使用):借力预设任务库,智能体匹配案例、自动推理,并调用工具执行,实现任务自动化。

  5. ReAct(推理+行动):交替进行逻辑推理与实际行动,使 AI 能互动查询,基于实况反馈优化回答,提升实用性和准确性。

单智能体和多智能体

单智能体能够自主执行任务,但面对复杂挑战时可能力有不逮。解决方案是构建多智能体网络,它们协同作业,形成一个综合系统应对用户需求。

以软件开发流程为例:

  1. 需求分析:智能体模拟产品经理与用户交流,明确需求并输出设计文档。

  2. 架构设计:另一智能体担任架构师角色,依据设计文档制定技术方案。

  3. 项目管理:再有智能体扮演项目经理,分配任务并监控进度。

  4. 编码实施:编程智能体负责编写代码模块。

  5. 质量保证:测试智能体编写测试案例并执行测试。

  6. 部署运维:最后,运维智能体负责系统上线与维护。

这些角色特化的智能体协同工作,形成一个高效的软件开发团队,直面并解决用户的具体需求。此概念已非理论,现有企业正积极探索并实践,比如:GitHub上这个项目(https://github.com/assafelovic/gpt-researcher),展示了如何利用多智能体系统针对用户查询自主搜集信息、规划研究议程,并最终产出研究报告,彰显了多智能体协作的强大潜力和现实应用。

智能体开发框架

在大模型智能体的构建技术领域,LangChain 作为一个流行的开源框架备受瞩目,它专注于促进大型语言模型的应用开发,广泛见诸于众多在线文章之中。LangChain 官方主要支持 Python 和 JavaScript 两种编程语言,而社区则展现了高度的积极性,为其他语言环境贡献了诸如`LangChain4J`和`LangChainGo`等移植版本。

除 LangChain 之外,还有诸如 AutoGPT 及微软的 AutoGen 等框架,这些工具多数围绕 Python 这一主流开发语言构建,旨在简化大模型的集成与应用过程。

值得注意的是,针对具备 Java 技术栈的开发者,Spring AI 框架在Java/Spring 生态系统内提供了一种定制化选择,进一步丰富了技术方案的多样性。

尽管上述框架面向技术开发者设计,要求一定的学习投入,但为了解放更多创意并加速智能体的开发进程,众多服务商已推出低代码乃至无代码的智能体搭建平台。这意味着,即便是没有编程背景的用户,也能迅速上手,打造出个性化的智能解决方案。

大厂的智能体平台

国内主流的智能体开发平台涵盖了几个重要玩家:

  1. 百度文心智能体平台:提供零代码及低代码开发选项,便于快速创建基本智能体。亲自体验其零代码功能,发现搭建简单智能体颇为高效。

  2. 字节跳动的扣子平台,同样支持低代码和零代码开发模式,强化了知识库、插件集成及工作流程自定义等扩展性功能。

  3. 阿里系的通义星尘平台,专长于构建角色交互式智能体,尽管目前尚未亲自尝试。

  4. 腾讯的腾讯元器平台,亦是未及亲身体验的一员。

这些平台虽各有特色,但整体格局相似,当前智能体应用多偏向基础和初步阶段,尚未迎来真正颠覆性的“明星”应用。一方面,智能体生态系统仍处起步阶段;另一方面,各厂商在激烈竞争下急于推出新品,导致某些基础功能成熟度有待提升。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值