在人工智能的发展历程中,大模型 Agent 的出现无疑是一个重要的里程碑。它赋予了机器更加智能化的行为,让我们距离实现通用人工智能(AGI)的目标又近了一步。那么,究竟什么是大模型 Agent?它是如何工作的?又在哪些领域有着广泛的应用呢?本文将为你一一揭晓。
一、什么是大模型 Agent?
大模型 Agent,即基于大型预训练模型构建的智能体,能够理解和生成自然语言。这些模型通过处理大量的数据进行训练,具备较强的语言理解和生成能力,可以在多种任务中表现出色。如果把 Agent 类比成人类,那么大模型相当于大脑,而工具就是四肢。Agent 能够通过工具实现与外部世界的交互,而工具通常就是之前介绍过的插件。
实际上,现有的大模型 Agent 通常也具备规划能力和记忆能力。在智能体的上下文中,记忆能力指的是系统能够存储、回忆和利用先前交互的信息。这种能力使得智能体能够保持上下文的连贯性,更好地理解用户需求,从而生成更合适的计划、决策和内容。
二、Agent 的工作流程
Agent 智能体基本上按照 Prompt 提示词、LLM 大模型、知识库、任务规划、工具调用这五个步骤执行。
(一)Prompt 提示词
提示词是 Agent 接收到的初始输入,它描述了 Agent 需要完成的任务或解决的问题。Agent 需要对提示词进行解析和理解,以便为后续的任务规划和行动执行提供指导。Prompt 提示词主要作用在于圈定角色范围、阐述任务背景、习惯特色。
(二)大模型
LLM 大模型是 Agent 进行任务规划和知识推理的重要工具。它通过对大量文本数据的学习,具备了强大的语言处理能力和知识推理能力。Agent 可以利用 LLM 大模型对提示词进行深入分析,生成可能的解决方案,并进行选择和优化。大模型主要作用在于理解、提取、识别、选择。
(三)知识库
知识库包含当前用户输入内容(包括文本、图像或其他形式,短暂保留感觉印象)、上下文内容(包括写在 Prompt 中的信息,处理复杂任务的临时存储空间,受有限的上下文本长度限制)以及外部向量存储的知识库(Agent 使用时可快速检索,具备存储量大的特点,如 docx、xlxs、csv、pdf、ppt、jpg、txt 等)。此外,填写网页 URL,还能自动检索网页信息,并将网页信息作为知识库。知识库主要作用在于调用、匹配当前输入内容以及上下文内容。
(四)Planning 任务规划
任务规划是 Agent 根据提示词、LLM 大模型以及知识库进行决策和规划的过程。它涉及对任务的分解、目标的设定、路径的规划等多个方面。Agent 需要综合考虑各种因素,制定出最合适的任务执行方案。任务的分解环节可以由三种方式完成:
-
在大模型输入简单的提示,比如 “XYZ 的步骤”,或者 “实现 XYZ 的子目标是什么?”;
-
使用特定任务的指令,比如在需要写小说的时候要求大模型 “写一个故事大纲”;
-
通过人工提供信息,如网站地图 / RPA 流程最佳实践。
CoT 思维链已成为一种标准的提示技术,用于提高模型在复杂任务中的表现。模型被要求 “一步一步地思考”,将艰巨的任务分解为更小更简单的步骤。思维链将大任务转化为多个可管理的任务,并帮助人们理解模型的思维过程。通过在任务的每一步探索多种推理可能性来扩展思维链,它首先将问题分解为多个思考步骤,并在每个步骤中生成多个想法,从而创建一个树状结构。搜索过程可以是 BFS(广度优先搜索)或 DFS(深度优先搜索)。任务规划主要作用在于分析方式、分析思考、留下推理痕迹。
(五)Action 工具使用
行动执行是 Agent 根据任务规划结果执行具体操作的过程。它可能涉及与环境的交互、数据的收集和处理、决策的调整等多个环节。Agent 需要准确地执行每一步操作,以确保任务能够顺利完成。大模型内置工具,可直接使用,包括日历、计算器、代码解释器、搜索等。Plug 插件用于扩展 Agent 功能,可以通过 Agent 插件来实现一些特定的功能或者对 Agent 进行定制化的配置。Agent 插件通常包括插件接口(定义了插件与 Agent 之间的交互接口,包括插件的初始化、启动、停止等操作)等部分。应用程序编程接口(API 接口),是应用程序重要的组成部分,就是应用程序对外提供了一个操作数据的入口,这个入口可以是一个函数或类方法,也可以是一个 url 地址或者一个网络地址。RPA(机器人流程自动化)是一种机器人流程自动化技术,它允许通过配置自动化软件模拟和人类在软件系统中交互的动作来执行业务流程,RPA 软件机器人在应用程序界面上识别数据并像人类一样操纵应用程序。工具的主要作用在于执行、返回执行结果。
三、Agent 的应用场景
AI Agent 可以在大量的领域与场景下展现出非凡的能力,包括但不限于以下方面:
(一)智能客服
比如一家公司需要全天候解答客户问题。AI Agent 可以根据客户问题调用大模型生成答案,还能主动查询库存信息、处理订单甚至提供物流状态。以某电商平台为例,其引入的 AI Agent 智能客服,能够快速响应用户的咨询,解答产品相关问题,处理售后纠纷等。在购物高峰期,它能够同时应对海量的客户咨询,大大提高了客户服务的效率和质量,减少了人工客服的压力。
(二)编程助手
开发人员需要解决某个技术问题时,AI Agent 不仅能提供代码示例,还能直接运行代码,调试错误,甚至优化性能。例如,当开发人员在编写一段复杂的算法代码时遇到困难,AI Agent 可以根据问题描述,分析需求,提供相关的代码框架和实现思路,并在开发人员编写代码过程中,实时检查代码语法错误,提供优化建议,帮助开发人员更快地完成代码编写任务。
(三)个人助理
Agent 可以帮你管理日程、订餐、处理邮件、监控股票市场,并根据你的偏好提供个性化建议,而不只是回答问题。例如,用户可以通过语音指令让个人助理 Agent 安排一天的工作行程,包括会议安排、预约客户见面等。同时,它还能根据用户的饮食习惯和位置信息,推荐合适的餐厅并完成订餐服务。在用户处理邮件时,Agent 可以自动筛选重要邮件,标记垃圾邮件,并根据历史邮件内容和用户的回复习惯,提供智能回复建议。
(四)智能家居
家庭中的 Agent 可以连接灯光、空调、安防摄像头等设备,根据家庭成员的指令与设定,主动调节环境,控制家具设备。例如,当家庭成员回家时,智能家居 Agent 可以根据预设条件,自动打开灯光、调节室内温度,同时启动安防设备解除警报状态。用户还可以通过语音或手机应用程序向 Agent 发出指令,控制家电设备的开关、调节设备参数等,实现更加便捷、舒适的家居生活体验。
(五)科学研究
在科研领域,AI Agent 可以自动收集最新文献、设计实验流程、分析实验数据,并生成总结报告。例如,在医学研究中,AI Agent 可以检索全球范围内的医学文献数据库,收集与特定疾病相关的最新研究成果和临床数据。然后,根据研究目的和要求,设计合理的实验方案,并在实验过程中实时监测数据,进行数据分析和处理。最后,生成详细的研究报告,为科研人员提供有价值的参考和决策支持,加速科研进程。
四、总结
大模型 Agent 作为人工智能领域的重要创新,正以其独特的工作方式和广泛的应用场景,深刻改变着我们的生活和工作方式。随着技术的不断发展和完善,相信大模型 Agent 将在更多领域发挥更大的作用,为我们带来更多的惊喜和便利。
五、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。