AgentBench 使用与启动教程

最新推荐文章于 2025-04-08 10:19:46 发布

牧韶希

最新推荐文章于 2025-04-08 10:19:46 发布

阅读量609

点赞数 21

本文链接：https://blog.csdn.net/gitblog_00629/article/details/147061027

版权

AgentBench 是由 THUDM 开发的一个综合性评测框架，旨在评估大型语言模型（LLM）作为智能体在不同环境下的性能。该项目包含多个不同的环境，以全面评估 LLM 的自主操作能力，这些环境包括操作系统、数据库、知识图谱、数字卡牌游戏以及横向思维谜题等。

以下是快速启动 AgentBench 的步骤：

首先，克隆仓库并安装所需的依赖项。

cd AgentBench
conda create -n agent-bench python=3.9
conda activate agent-bench
pip install -r requirements.txt

确保已经正确安装了 Docker。

docker ps

在 configs/agents/openai-chat.yaml 文件中填写你的 OpenAI API Key。你可以使用以下命令来检查智能体是否配置正确。

python -m src.client.agent_test

默认情况下会启动 gpt-3.5-turbo-0613。你可以通过修改参数来使用其他智能体。

python -m src.client.agent_test --config configs/agents/api_agents.yaml --agent gpt-3.5-turbo-0613

启动任务服务器需要执行特定的脚本。假设端口 5000 到 5015 是可用的，可以使用以下命令来自动启动。

python -m src.start_task -a

执行此命令后，大约需要等待 1 分钟以完成任务设置。

当任务服务器准备好后，可以在另一个终端中启动任务分配器。

python -m src.assigner

AgentBench 的使用案例涵盖了多种不同的任务，例如在数据库环境中执行查询，或在操作系统中执行命令。最佳实践包括为不同任务配置合适的智能体，以及根据任务需求调整参数。

AgentBench 的生态系统包括了多个相关的项目，例如：

以上是 AgentBench 的基本使用和启动教程，你可以根据具体需求进行相应的配置和扩展。