Lagent & AgentLego智能体应用部署

比奇堡的菠萝屋

已于 2024-04-17 23:12:35 修改

阅读量292

点赞数 4

文章标签：深度学习

于 2024-04-17 18:10:25 首次发布

本文链接：https://blog.csdn.net/2301_77641278/article/details/137874303

版权

本文探讨了大模型在信息生成和处理上的局限性，引出智能体的概念，重点介绍了Lagent和AgentLego这两个工具，它们分别提供智能体框架和多模态工具，以优化任务处理和增强模型的可靠性。实战部分链接指向进一步的学习资源。

摘要由CSDN通过智能技术生成

本文章用于学习记录，若想了解详细内容请前往一下链接：

大模型的局限性：

会产生幻觉：模型可能会生成虚假信息，与现实严重不符或脱节。

时效性较差：模型训练数据过时，无法反应最新的趋势和信息。

可靠性不高：面对复杂任务时，输出准确度不高，影响信任度。

基于此类问题，产生了智能体。

一、什么是智能体

可以感知环境中的动态条；能采取动作影响环境；能运用推理能力理解信息、解决问题、产生推断、决定动作。

大脑：作为控制器，承担记忆、思考和决策任务。接收来自感知模块的信息，并采取相应动作。

感知：对外部环境的多模态信息进行感知和处理。包括但不局限于图像、音频、视频、传感器等。

动作：利用并执行工具以影响环境。工具可能包括文本的检索、调用相关API、操纵机械臂等。

将用户输入的问题交给不同的智能体来构成一个回复流程。

将用户的输入做拆分，并将各种工具之间的依赖形成一个有向无环图，在图中进行计划执行，直至达到最终结果。从图中可以看出planner将用户输入拆分成了不同的任务，然后交给worker来执行，最后将俩部分的内容一同交给solver来执行。

由输入选择工具并且执行，在执行后模型会判断是否需要继续选择工具来执行，直到完成任务。

此方式结合了推理和行为，实现了智能体的思维模式优化。

作为一个轻量级的开源智能体框架，旨在让用户可以高效的构建基于大语言模型的智能体。

lagent支持多种智能体范式，如AutoGPT、ReWoo、ReAct。并且支持多种工具，如谷歌搜索、Python解释器等。

Lagent 目前已经支持了包括 AutoGPT、ReAct 等在内的多个经典智能体范式，也支持了如下工具：

AgentLego是一个多模态工具包，旨在像乐高积木一样，可以快速简便地拓展自定义工具，从而组装出自己的智能体。支持多个智能体框架。（如Lagent、LangChain、Transfromers Agents），并且提供大量视觉、多模态领域前沿算法。

AgentLego 目前提供了如下工具：

通用能力	语音相关	图像处理	AIGC
计算器谷歌搜素	文本 -> 音频（TTS）音频 -> 文本（STT）	描述输入图像识别文本（OCR）视觉问答（VQA）人体姿态估计人脸关键点检测图像边缘提取（Canny）深度图生成生成涂鸦（Scribble）检测全部目标检测给定目标 SAM 分割一切分割给定目标	文生图图像拓展删除给定对象替换给定对象根据指令修改 ControlNet 系列根据边缘+描述生成根据深度图+描述生成根据姿态+描述生成根据涂鸦+描述生成 ImageBind 系列音频生成图像热成像生成图像音频+图像生成图像音频+文本生成图像