AgentBench 使用与启动教程

AgentBench 使用与启动教程

AgentBench A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24) AgentBench 项目地址: https://gitcode.com/gh_mirrors/ag/AgentBench

1. 项目介绍

AgentBench 是由 THUDM 开发的一个综合性评测框架,旨在评估大型语言模型(LLM)作为智能体在不同环境下的性能。该项目包含多个不同的环境,以全面评估 LLM 的自主操作能力,这些环境包括操作系统、数据库、知识图谱、数字卡牌游戏以及横向思维谜题等。

2. 项目快速启动

以下是快速启动 AgentBench 的步骤:

步骤 1: 准备环境

首先,克隆仓库并安装所需的依赖项。

cd AgentBench
conda create -n agent-bench python=3.9
conda activate agent-bench
pip install -r requirements.txt

确保已经正确安装了 Docker。

docker ps

步骤 2: 配置智能体

configs/agents/openai-chat.yaml 文件中填写你的 OpenAI API Key。你可以使用以下命令来检查智能体是否配置正确。

python -m src.client.agent_test

默认情况下会启动 gpt-3.5-turbo-0613。你可以通过修改参数来使用其他智能体。

python -m src.client.agent_test --config configs/agents/api_agents.yaml --agent gpt-3.5-turbo-0613

步骤 3: 启动任务服务器

启动任务服务器需要执行特定的脚本。假设端口 5000 到 5015 是可用的,可以使用以下命令来自动启动。

python -m src.start_task -a

执行此命令后,大约需要等待 1 分钟以完成任务设置。

步骤 4: 启动任务分配器

当任务服务器准备好后,可以在另一个终端中启动任务分配器。

python -m src.assigner

3. 应用案例和最佳实践

AgentBench 的使用案例涵盖了多种不同的任务,例如在数据库环境中执行查询,或在操作系统中执行命令。最佳实践包括为不同任务配置合适的智能体,以及根据任务需求调整参数。

4. 典型生态项目

AgentBench 的生态系统包括了多个相关的项目,例如:

  • AvalonBench:一个多智能体框架的实现。
  • VisualAgentBench:专为评估和训练基于大型多模态模型(LMMs)的视觉基础智能体而设计。

以上是 AgentBench 的基本使用和启动教程,你可以根据具体需求进行相应的配置和扩展。

AgentBench A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24) AgentBench 项目地址: https://gitcode.com/gh_mirrors/ag/AgentBench

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

牧韶希

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值