第六节:Lagent & AgentLego 智能体应用搭建

笔记

1. 概述

1.1 Lagent 是什么

Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。

Lagent 目前已经支持了包括 AutoGPT、ReAct 等在内的多个经典智能体范式,也支持了如下工具:

  • Arxiv 搜索
  • Bing 地图
  • Google 学术搜索
  • Google 搜索
  • 交互式 IPython 解释器
  • IPython 解释器
  • PPT
  • Python 解释器

1.2 AgentLego 是什么

AgentLego 是一个提供了多种开源工具 API 的多模态工具包,旨在像是乐高积木一样,让用户可以快速简便地拓展自定义工具,从而组装出自己的智能体。通过 AgentLego 算法库,不仅可以直接使用多种工具,也可以利用这些工具,在相关智能体框架(如 Lagent,Transformers Agent 等)的帮助下,快速构建可以增强大语言模型能力的智能体。

AgentLego 目前提供了如下工具:

通用能力

  • 计算器
  • 谷歌搜索

语音相关

  • 文本 -> 音频(TTS)
  • 音频 -> 文本(STT)

图像处理

  • 描述输入图像
  • 识别文本(OCR)
  • 视觉问答(VQA)
  • 人体姿态估计
  • 人脸关键点检测
  • 图像边缘提取(Canny)
  • 深度图生成
  • 生成涂鸦(Scribble)
  • 检测全部目标
  • 检测给定目标
  • SAM
  • 分割一切
  • 分割给定目标
  • 文生图
  • 图像拓展
  • 删除给定对象
  • 替换给定对象
  • 根据指令修改
  • ControlNet 系列
  • 根据边缘+描述生成
  • 根据深度图+描述生成
  • 根据姿态+描述生成
  • 根据涂鸦+描述生成
  • ImageBind 系列

AIGC

  • 音频生成图像
  • 热成像生成图像
  • 音频+图像生成图像
  • 音频+文本生成图像

1.3 两者的关系

经过上面的介绍,我们可以发现,Lagent 是一个智能体框架,而 AgentLego 与大模型智能体并不直接相关,而是作为工具包,在相关智能体的功能支持模块发挥作用。

1.4 环境配置

1.4.1 创建开发机和 conda 环境

在创建开发机界面选择镜像为 Cuda12.2-conda,并选择 GPU 为30% A100。

选择开发机

进入开发机后,为了方便使用,我们需要配置一个环境以同时满足 Lagent 和 AgentLego 运行时所需依赖。在开始配置环境前,我们先创建一个用于存放 Agent 相关文件的目录,可以执行如下命令:

mkdir -p /root/agent

接下来,我们开始配置 conda 环境,可以输入如下指令:

studio-conda -t agent -o pytorch-2.1.2

显示下图就是初始化环境成功了。

创建环境

非 InterStudio 开发机环境配置

1.4.2 安装 Lagent 和 AgentLego

Lagent 和 AgentLego 都提供了两种安装方法,一种是通过 pip 直接进行安装,另一种则是从源码进行安装。为了方便使用 Lagent 的 Web Demo 以及 AgentLego 的 WebUI,我们选择直接从源码进行安装。 此处附上源码安装的相关帮助文档:

可以执行如下命令进行安装:

cd /root/agent
conda activate agent
git clone https://gitee.com/internlm/lagent.git
cd lagent && git checkout 581d9fb && pip install -e . && cd ..
git clone https://gitee.com/internlm/agentlego.git
cd agentlego && git checkout 7769e0d && pip install -e . && cd ..

1.4.3 安装其他依赖

在这一步中,我们将会安装其他将要用到的依赖库,如 LMDeploy,可以执行如下命令:

conda activate agent
pip install lmdeploy==0.3.0

1.4.4 准备 Tutorial

由于后续的 Demo 需要用到 tutorial 已经写好的脚本,因此我们需要将 tutorial 通过 git clone 的方法准备好,以备后续使用:

cd /root/agent
git clone -b camp2 https://gitee.com/internlm/Tutorial.git

2. Lagent:轻量级智能体框架

在这一部分中,我们将带大家体验 Lagent 的 Web Demo,使用 Lagent 自定义工具,并体验自定义工具的效果。

详细文档可以访

问:Lagent:轻量级智能体框架

3. AgentLego:组装智能体“乐高”

在这一部分中,我们将带大家直接使用 AgentLego 工具,体验 AgentLego 的 WebUI,以及基于 AgentLego 自定义工具并体验自定义工具的效果。

详细文档可以访问:AgentLego:组装智能体“乐高”
``

作业:

1.完成 Lagent Web Demo 使用,并在作业中上传截图。文档可见 Lagent Web Demo
在这里插入图片描述

在这里插入图片描述
2.

首先下载 demo 文件:

```bash
cd /root/agent
wget http://download.openmmlab.com/agentlego/road.jpg

由于 AgentLego 在安装时并不会安装某个特定工具的依赖,因此我们接下来准备安装目标检测工具运行时所需依赖。

AgentLego 所实现的目标检测工具是基于 mmdet (MMDetection) 算法库中的 RTMDet-Large 模型,因此我们首先安装 mim,然后通过 mim 工具来安装 mmdet。这一步所需时间可能会较长,请耐心等待。

conda activate agent
pip install openmim==0.3.9
mim install mmdet==3.3.0

在安装完成后,可能会观察到以下现象(如下图所示),但请放心,这是正常现象,这并不会影响到我们的使用。

然后通过 touch /root/agent/direct_use.py(大小写敏感)的方式在 /root/agent 目录下新建 direct_use.py 以直接使用目标检测工具,direct_use.py 的代码如下:

import re

import cv2
from agentlego.apis import load_tool

# load tool
tool = load_tool('ObjectDetection', device='cuda')

# apply tool
visualization = tool('/root/agent/road.jpg')
print(visualization)

# visualize
image = cv2.imread('/root/agent/road.jpg')

preds = visualization.split('\n')
pattern = r'(\w+) \((\d+), (\d+), (\d+), (\d+)\), score (\d+)'

for pred in preds:
    name, x1, y1, x2, y2, score = re.match(pattern, pred).groups()
    x1, y1, x2, y2, score = int(x1), int(y1), int(x2), int(y2), int(score)
    cv2.rectangle(image, (x1, y1), (x2, y2), (0, 255, 0), 1)
    cv2.putText(image, f'{name} {score}', (x1, y1), cv2.FONT_HERSHEY_SIMPLEX, 0.8, (0, 255, 0), 1)

cv2.imwrite('/root/agent/road_detection_direct.jpg', image)

此时文件树结构如下:

/root/agent
├── agentlego
│   ├── agentlego
│   ├── docs
│   ├── examples
│   ├── LICENSE
│   └── ...
├── lagent
│   ├── docs
│   ├── examples
│   ├── lagent
│   ├── LICENSE
│   └── ...
├── Tutorial
│   ├── assets
│   ├── agent
│   ├── helloword
│   ├── huixiangdou
│   └── ...
├── direct_use.py
└── road.jpg

接下来在执行 python /root/agent/direct_use.py 以进行推理。在等待 RTMDet-Large 权重下载并推理完成后,我们就可以看到如下输出以及一张位于 /root/agent 名为 road_detection_direct.jpg 的图片:

truck (345, 428, 528, 599), score 83
car (771, 510, 837, 565), score 81
car (604, 518, 677, 569), score 75
person (866, 503, 905, 595), score 74
person (287, 513, 320, 596), score 74
person (964, 502, 999, 604), score 72
person (1009, 503, 1047, 602), score 69
person (259, 510, 279, 575), score 65
car (1074, 524, 1275, 691), score 64
person (993, 508, 1016, 597), score 62
truck (689, 483, 764, 561), score 62
bicycle (873, 551, 903, 602), score 60
person (680, 523, 699, 567), score 55
bicycle (968, 551, 996, 609), score 53
bus (826, 482, 930, 560), score 52
bicycle (1011, 551, 1043, 617), score 51

结果:

在这里插入图片描述

  • 24
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于agent智能的NL2SQL(自然语言转结构化查询语言)系统是近年来人工智能领域的研究热点之一。这种系统利用自然语言输入,通过深度学习等技术,将自然语言意图转化为数据库查询语言,从而实现自动化地回答用户在数据库中的查询请求。 NL2SQL系统的实现主要包含以下几个关键步骤: 1. 数据集的构建:为了训练和评估模型,需要构建包含自然语言查询和对应SQL语句的数据集。通常,这需要人工标注大量的数据,包含各种查询语句和对应的正确结果。 2. 自然语言理解(NLU):NLU是NL2SQL系统的关键组成部分,它负责将自然语言查询转化为一个中间表示。该中间表示可以是一种语义解析树、查询模板或其他形式,用于表示查询的语义。NLU可以利用分词、词性标注、实识别等方法对输入的自然语言文本进行语义解析。 3. 查询生成:在得到中间表示后,系统需要将其转化为对应的SQL语句。这个过程可以利用预定义的查询模板,也可以通过生成查询的方式。生成查询的方法可以使用递归神经网络、增强型注意力模型等技术。 4. 查询执行:最后一步是执行生成的SQL查询,将结果返回给用户。查询执行可以利用数据库管理系统(DBMS)来完成,连接到数据库并返回查询结果。 基于agent智能的NL2SQL系统研究与实现面临一些挑战。首先,自然语言的多样性和复杂性使得理解和转换为结构化查询语言具有一定的困难。其次,训练数据的获取和标注需要大量的人力资源和时间成本。此外,系统需要处理好语义解析和查询生成之间的映射关系,以确保生成的查询语句正确无误。 然而,随着深度学习和自然语言处理的发展,基于agent智能的NL2SQL系统的研究和实现取得了一些重要的突破。这种系统在实际应用中具有广阔的前景,可以帮助用户更便捷地从数据库中获取信息,并推动智能化的数据查询和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值