本文章用于学习记录,若想了解详细内容请前往一下链接:
Lagent & AgentLego 智能体应用搭建_哔哩哔哩_bilibili
大模型的局限性:
会产生幻觉:模型可能会生成虚假信息,与现实严重不符或脱节。
时效性较差:模型训练数据过时,无法反应最新的趋势和信息。
可靠性不高:面对复杂任务时,输出准确度不高,影响信任度。
基于此类问题,产生了智能体。
一、什么是智能体
1.1.满足条件:
可以感知环境中的动态条;能采取动作影响环境;能运用推理能力理解信息、解决问题、产生推断、决定动作。
1.2.组成部分:
大脑:作为控制器,承担记忆、思考和决策任务。接收来自感知模块的信息,并采取相应动作。
感知:对外部环境的多模态信息进行感知和处理。包括但不局限于图像、音频、视频、传感器等。
动作:利用并执行工具以影响环境。工具可能包括文本的检索、调用相关API、操纵机械臂等。
二、智能体范式
2.1AutoGPT
将用户输入的问题交给不同的智能体来构成一个回复流程。
2.2ReWoo
将用户的输入做拆分,并将各种工具之间的依赖形成一个有向无环图,在图中进行计划执行,直至达到最终结果。从图中可以看出planner将用户输入拆分成了不同的任务,然后交给worker来执行,最后将俩部分的内容一同交给solver来执行。
2.3ReAct
由输入选择工具并且执行,在执行后模型会判断是否需要继续选择工具来执行,直到完成任务。
此方式结合了推理和行为,实现了智能体的思维模式优化。
三、Lagent
作为一个轻量级的开源智能体框架,旨在让用户可以高效的构建基于大语言模型的智能体。
lagent支持多种智能体范式,如AutoGPT、ReWoo、ReAct。并且支持多种工具,如谷歌搜索、Python解释器等。
Lagent 目前已经支持了包括 AutoGPT、ReAct 等在内的多个经典智能体范式,也支持了如下工具:
- Arxiv 搜索
- Bing 地图
- Google 学术搜索
- Google 搜索
- 交互式 IPython 解释器
- IPython 解释器
- PPT
- Python 解释器
四、AgentLego
AgentLego是一个多模态工具包,旨在像乐高积木一样,可以快速简便地拓展自定义工具,从而组装出自己的智能体。支持多个智能体框架。(如Lagent、LangChain、Transfromers Agents),并且提供大量视觉、多模态领域前沿算法。
AgentLego 目前提供了如下工具:
通用能力 | 语音相关 | 图像处理 | AIGC |
|
|
|
|
五、Lagent和AgentLego的关系
大模型会根据用户输入来判断是否需要调用工具,如果需要调用工具则会进入lagent的框架结构,由lagent来选择可以调用的工具,而AgentLego就是一个多模特工具包,提供了好多的工具来方便lagent的调用。
六、实战部分
(此部分为书生浦语训练营作业部分)
实战文档链接:Tutorial/agent at camp2 · InternLM/Tutorial (github.com)