【AI Agent】入门，看这一篇就够了！

程序学到昏

于 2024-08-14 19:59:26 发布

阅读量717

点赞数 10

文章标签：人工智能 prompt Agent 大数据 langchain 大模型 LLM

本文链接：https://blog.csdn.net/Y525698136/article/details/141199019

版权

AI Agent技术正重塑我们的未来工作与生活。本文深入探索了AI Agent构建平台的奥秘，从概念理解到功能剖析，再到国内外平台的全面盘点，带领读者领略这一变革性技术的魅力。

在这里插入图片描述

一、初识Agent（由来及现状浅析）

Agent一词，在人工智能领域的早期研究中，就已被用来描述能够执行任务或做出决策的程序或系统。

从2023年下半年开始，Agent这个词的热度便随RAG，大模型开发框架等概念推出后一度飙升，至今依旧热度不减（ 由下图「百度指数」和「谷歌趋势」关于“Agent”关键词的搜索指数和趋势可以看出）。

在这里插入图片描述

图1-1来自百度指数（数据统计范围：2022.11.30~2024.7.17）

在这里插入图片描述

图1-2来自谷歌指数（数据统计范围：2023.7.16~2024.7.17）

当前Agent，在人工智能领域，通常用来指代 “决策、感知、执行于一体”的智能系统或智能应用，并且进行指挥和决策的“大脑”可以由各类LLM或VLM充当。

在2023年11月20日，在OpenAI首届开发者大会上推出GPTs以后， 各种类GPTs构建平台便如雨后春笋一样出现，并且功能也越来越丰富。

在AI Agent热浪下， 国内外的AI头部公司、互联网大厂以及原有RPA、企业办公（CRM、客服）业务的公司，都纷纷推出了Agent相关产品。 比如助力企业实现业务流程自动化的Beam.ai、亚马逊Bedrock Agent等，面向多种应用场景的各类AI Agent构建平台（字节扣子、智谱清言智能体中心、百度文心智能体平台、阿里百炼平台、百度智能客服产品-客悦“Agent0-1构建功能”、昆仑万维的skyAgents等。

这些Agent和GPTs，正在悄然改变人们的工作方式，提高工作与生产效率，以及重新定义生产力。 据有关人士整理，目前单国内外的AI Agent构建平台，至少已经超过80个。

在这里插入图片描述

图1-3 智谱AI-智谱清言-“新建智能体”产品功能截图

在这里插入图片描述

图1-4 文心一言智能体-产品界面截图

在这里插入图片描述

图1-5 百度客悦智能对话平台一2024年4月产品界面截图（1）

在这里插入图片描述

图1-6 百度客悦智能对话平台一2024年4月产品界面截图（2）

二、AI Agent产品特点、功能模块、使用场景介绍

前段时间，吴恩达教授在红杉资本AI Ascent的分享中提到反思（reflection） 、工具使用（Tool use）、规划（Planning）、多智能体协作（Multiagent collaboration） 四种AI Agent设计模式已经逐步在一些Agent构建平台实现，有的平台如Coze等已经能够支持全部四种设计模式。

在这里插入图片描述

图2-1 字节AI智能体构建平台（Coze）-产品主页截图

前面说了那么多，那到底什么是AI Agent构建平台？AI Agent平台有什么特点？有哪些功能模块？

如若你使用过几款AI Agent平台（工具）产品，你就会发现：现在的这些AI Agent构建平台，不论是产品UI界面上，还是产品功能逻辑上，都大差不差，均提供基于LLM通识能力的对话机器人构建（简单智能体构建），和基于LLM、工作流、知识库、API插件于一体的复杂Agent构建两种。

且在创建Agent应用时，用户只需要输入一段简单的智能体工作&技能相关描述，后台AI便能帮你自动生成智能体名称、头像、简介及系统提示词等内容，非常之快捷、方便，分分钟即可配好你的智能体。

在这里插入图片描述

图2-2（a）智谱清言-“新建智能体”-用户输入智能体描述

在这里插入图片描述

图2-2（b）智谱清言-“新建智能体”-系统据用户输入，智能生成的智能体配置信息

p.s.在当前时间节点（2024年7月17日），字节Coze、百度文心智能体、智谱AI-智谱清言均早已实现 “一句话描述智能体，AI自动生成配置” ，而腾讯元器（腾讯的智能体平台）还暂未实现，还需要用户手动输入头像&名称这些信息，否则无法创建成功。

2.1 基于LLM通识能力，快速构建chatbot

1）适用场景：

适用于仅依照LLM通识能力，通过设定好LLM系统提示词（人设&工作内容&温度值等参数）就可以实现业务需求的场景，如“美食推荐专家”、“智能沟通专家”、“冷笑话专家”、“知识百科小助手”等等；
在这里插入图片描述

图2-3 字节Coze新建智能体（test-bot）

2.2 基于知识库&插件&工作流，构建复杂智能体

1）适用场景：

如果需要访问企业/个人知识库、调用一些额外的API插件来实现业务需求，则需要配置好相应的插件（如网络爬虫、xxx数据库查询与数据统计、天气查询、航班查询等等）、知识库数据。

另外，若有高阶需求，比如需要根据不同的业务触发条件执行对应的sop，则还需要配置工作流。

——当前阶段，一般的Agent平台，均提供“画布拖拽式”的工作流搭建功能。在你的工作流中，你可以选择让LLM参与任务，也可以选择不参与，此时LLM就相当于一个组件而已。

在这里插入图片描述

图2-4 字节Coze-工作流配置页面

在这里插入图片描述

图2-5 Dify-工作流配置页面

2.3 本节Q&A：

Q1. AI Agent产品有什么特点？

A1：AI Agent产品，一般具备AI Agent 0-1构建的功能，可帮助用户或企业零代码或低代码，通过“自然语言”的方式，输入一段智能体描述，即可分分钟快速搭建一个chatbot，如美食推荐专家、旅游规划专家、情感树洞、讲冷笑话小助手。

此外，AI Agent构建平台产品，还支持个人和企业用户构建复杂的智能体应用，通过提供【插件】、【知识库】、【工作流】、【多智能体协作】配置相关功能，实现这一过程。同时支持对智能体【在线调试】和【发布】，发布形式上，支持按API调用，也支持直接发布带前端界面的应用（这种应用一般以chatbot（对话机器人）形式为主，一些AppBuilder产品，还可支持低代码和无代码搭建网站等应用，如之前火过的钉钉「宜搭」、「轻流」低代码平台。

在【LLM】选择和配置上，平台一般均会提供【自家LLM】和【三方LLM】，供用户挑选；在LLM配置上，一般支持配置LLM的温度值、系统提示词、TOPK等参数；
在【工作流】配置功能中，Agent平台，基本上均实现了“画布式”可视化配置方式，用户可通过拖拽节点组件{LLM、插件、数据库、会话、变量等}来完成工作流配置。
在【插件】选择上，平台支持用户从平台整合好的【预置插件商城】中选择，也支持用户【自定义插件】。
在【知识库】配置功能中，一般的Agent平台，均支持导入外部文档资料（如pdf、excel、word等），功能丰富一些的Agent平台不仅支持离线导入文档，还支持“连接数据库”（如语聚AI，支持连接飞书文档，需提前定义好API相关配置）

——答案来自个人理解，仅供参考~

Q2. AI Agent用来解决谁的什么问题的？

A2： AI Agent平台，可以帮助个人用户和企业，通过“自然语言”、工作流配置等方式，无代码或低代码地简单高效的搭建一款chatbot应用，在对话和任务执行过程中，用户可选择LLM来完成任务，相较于原来的智能对话机器人“总是从头说”、“回答话术一成不变”、“无法很好理解用户问题”等问题来说，基于LLM的chatbot更加智能、更加“懂用户”。

——答案来自个人理解，仅供参考~

Q3. 目前AI Agent产品有哪几种设计模式？分别有什么特点？

A3： 吴恩达教授在红杉资本AI Ascent的分享中提到反思（reflection） 、工具使用（Tool use）、规划（Planning）、多智能体协作（Multiagent collaboration） 四种AI Agent设计模式。

反思（Reflection） ：指的是AI代理在执行任务时能够自我评估和调整其行为的能力。通过反思，AI可以学习从经验中获得教训，从而在未来的决策中做出更好的选择。
工具使用（Tool Use） ：这涉及到AI代理能够识别、选择和使用不同的工具或资源来完成特定的任务。例如，一个机器人可能会使用不同的工具来修理设备或完成建筑任务。
规划（Planning） ：这是指AI代理能够制定和执行长期或复杂的计划。规划能力使AI能够预见未来的需求和挑战，并提前做出相应的安排。
多智能体协作（Multiagent Collaboration） ：这涉及到多个AI代理能够协同工作，共同完成更复杂的任务。这种协作可以提高效率和效果，尤其是在需要不同技能和资源的情况下。

Q4. AI Agent平台，一般有哪些功能模块？

A4： 基于LLM的chatbot0-1搭建，包括：【智能体创建】、【智能体配置】、【智能体调试】、【智能体发布】功能；以及【智能体商城】功能，支持用户从平台中挑选其感兴趣的智能体进行应用和体验；以及多智能体协作功能。

关于【智能体配置】功能，包括智能体『基本信息配置』（名称、头像、简介、LLM模型选择与参数配置（工作技能和工作内容&流程描述、温度值等）、『智能体复杂配置』（工作流配置、插件配置、知识库配置等）；

在【LLM】选择和配置上，平台一般均会提供【自家LLM】和【三方LLM】，供用户挑选；在LLM配置上，一般支持配置LLM的温度值、系统提示词、TOPK等参数；
在【工作流】配置功能中，Agent平台，基本上均实现了“画布式”可视化配置方式，用户可通过拖拽节点组件{LLM、插件、数据库、会话、变量等}来完成工作流配置。
在【插件】选择上，平台支持用户从平台整合好的【预置插件商城】中选择，也支持用户【自定义插件】。
在【知识库】配置功能中，一般的Agent平台，均支持导入外部文档资料（如pdf、excel、word等），功能丰富一些的Agent平台不仅支持离线导入文档，还支持“连接数据库”（如语聚AI，支持连接飞书文档，需提前定义好API相关配置）

——答案来自个人理解，仅供参考~

三、国内外AI Agent产品盘点

下面给出行内有关人士整理（+个人补充）的海内外AI Agent平台盘点名单，包括68个海外AI Agent构建平台和 21个国内AI Agent平台产品名称及介绍，老师们可根据产品名称自行搜索体验，建议从互联网大厂、AI独角兽厂商的产品开始使用体验。

3.1 68款海外AI Agent构建平台盘点及简要介绍

在这里插入图片描述

图3-1 海外AI Agent平台构建(图来自网络，仅做学习交流使用，如有侵权联系删除）

在这里插入图片描述

图3-2 SignalWire Agent平台构建

3.2 21款国内AI Agent构建平台盘点

在这里插入图片描述
除此之外，还有百度智能客服-客悦平台、简易云的语聚AI产品等，也支持AI Agent构建。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望