书生浦语第二期第六节课笔记（Lagent & AgentLego 智能体应用搭建）

Gotwant

已于 2024-04-24 11:22:39 修改

阅读量2.2k

点赞数 58

文章标签：笔记机器学习人工智能语言模型自然语言处理

于 2024-04-24 11:20:16 首次发布

本文链接：https://blog.csdn.net/Gotwant/article/details/138152718

版权

一、智能体简介

1.什么是智能体（agent）？

智能体是可以感知环境中的动态条件，能采取动作影响环境，能运用推理能力理解信息、产生推断、决定动作的大模型。

2.为什么会有智能体？

大模型会产生幻觉，模型会生成虚假信息，与现实严重不符或脱节。
大模型训练数据过时，无法反映最新趋势。
大模型在面对复杂任务时，可能会频发错误输出现象，影响客户对其的信任度。

3.智能体组成

大脑：作为控制器，承担记忆、思考和决策任务。接受来自感知模块的信息，并采取相应的动作。
感知：对外部环境的多模态信息进行感知和处理。包括但不限于图像、音频、视频、传感器等。
动作：利用并执行工具以影响环境。工具可能包括文本的检索、调用相关API、操控机械臂等。

4.智能体范式

AutoGPT是一种自动化文本生成模型，它是基于GPT（Generative Pre-trained Transformer）的改进版。GPT是一种基于Transformer的预训练语言模型，它可以在大规模语料库上进行预训练，然后在各种下游任务中进行微调。 AutoGPT通过自动搜索算法来优化GPT的超参数，从而提高其在各种任务上的表现。
解释转自5000字详解AutoGPT原理&保姆级安装教程 - 知乎 (zhihu.com)

ReWOO将ALM的关键组件（逐步推理、工具调用和摘要）划分为三个独立的模块：Planner、Worker和Solver。Solver分解一项任务，制定一个相互依存的规划蓝图（blueprint），每个规划都分配给Worker。Worker从工具中检索外部知识提供证据。Solver综合所有规划和证据，生成初始任务的最终答案。

解释转自ReWOO: 高效增强语言模型中解偶观测和推理 - 知乎 (zhihu.com)

ReAct本质上就是把融合了Reasoning和Acting的一种范式，推理过程是浅显易懂，仅仅包含thought-action-observation步骤，很容易判断推理的过程的正确性，使用ReAct做决策甚至超过了强化学习，上图显示的是四种prompt方法的比较，（1）第一种是标准的，第二种是Chain-of-thought（仅推理），图c是仅执行。（d）是ReAct，解决了一个HotpotQA的问题；（2）比较了Act-only和ReAct的方法来解决AlfWorld游戏的问题。总之，chain-of-thought推理是一个静态的黑盒，它没有用到外部的知识，所以在推理过程中会出现事实幻想（fact hallucination）和错误传递（error propagation）的问题。Act-only的方法很显然就是没有利用LLM的推理能力。ReAct克服了普遍存在的问题思维链推理中的幻觉和错误传播问题，通过与简单的维基百科API交互，生成类似于人的任务解决型轨迹，解释性进一步增强。

解释转自2023年新生代大模型Agents技术,ReAct,Self-Ask,Plan-and-execute,以及AutoGPT, HuggingGPT等应用 - 知乎 (zhihu.com)

二、Lagent和AgentLego简介

1.Lagent 是什么

Lagent 是一个轻量级开源智能体框架，旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。

Lagent 目前已经支持了包括 AutoGPT、ReAct 等在内的多个经典智能体范式，也支持了如下工具：

Arxiv 搜索
Bing 地图
Google 学术搜索
Google 搜索
交互式 IPython 解释器
IPython 解释器
PPT
Python 解释器

2.AgentLego 是什么

AgentLego 是一个提供了多种开源工具 API 的多模态工具包，旨在像是乐高积木一样，让用户可以快速简便地拓展自定义工具，从而组装出自己的智能体。通过 AgentLego 算法库，不仅可以直接使用多种工具，也可以利用这些工具，在相关智能体框架（如 Lagent，Transformers Agent 等）的帮助下，快速构建可以增强大语言模型能力的智能体。

AgentLego 目前提供了如下工具：

通用能力	语音相关	图像处理	AIGC
计算器谷歌搜索	文本 -> 音频（TTS）音频 -> 文本（STT）	描述输入图像识别文本（OCR）视觉问答（VQA）人体姿态估计人脸关键点检测图像边缘提取（Canny）深度图生成生成涂鸦（Scribble）检测全部目标检测给定目标 SAM 分割一切分割给定目标	文生图图像拓展删除给定对象替换给定对象根据指令修改 ControlNet 系列根据边缘+描述生成根据深度图+描述生成根据姿态+描述生成根据涂鸦+描述生成 ImageBind 系列音频生成图像热成像生成图像音频+图像生成图像音频+文本生成图像