【模型测试】基于OpenCompass实现Agent最为苛刻的基准评测：GAIA

最新推荐文章于 2025-04-20 14:42:29 发布

洞明智能

最新推荐文章于 2025-04-20 14:42:29 发布

阅读量1.1k

点赞数 30

文章标签：模块测试大模型评测

本文链接：https://blog.csdn.net/Deadwalk/article/details/147122553

版权

背景

为了能够更好地评估Agent的能力，我们需要在OpenCompass的评测框架基础上，尝试引入当前最为严苛的Agent能力评估基准：GAIA（General AI Assistant Benchmark），本章是对GAIA基准测试的调研总结文档。

目标

目标1：调研GAIA基准测试，了解其数据内容基本构成。
目标2：运行GAIA基准测试，了解其运行方式。
目标3：在OpenCompass框架下，尝试引入GAIA基准测试。

分析

1. 了解GAIA基准测试

GAIA（A Benchmark for General AI Assistants） 是由Meta、HuggingFace等团队提出的通用AI助手评估基准，旨在测试AI系统在现实任务中的推理、多模态处理、工具使用等基础能力。GAIA（测试重点考察模型的网络浏览、多模态处理、代码执行和文件推理能力，并设置三个难度级别（基础、进阶、专家级）。例如，任务可能涉及从动态网页中提取数据、解析PDF图表，或结合图像与文本进行综合分析。

论文地址：https://arxiv.org/pdf/2311.12983

huggingface排行榜：https://huggingface.co/spaces/gaia-benchmark/leaderboard

问题规模：共包含466个问题，其中166个公开开发集问题和答案，300个测试集问题保留答案用于排行榜竞争。
问题类型：多数问题为文本形式，部分附带图像、电子表格等多模态文件（如解析表格数据或识别图像信息）。
任务场景：涵盖日常个人任务（如查找网页注册信息）、科学问题（如数据分析）及通用知识查询。
答案格式：每个问题对应唯一、简短的事实性答案（如字符串、数字或列表），便于自动化评估。

难度分级：

Level 1：简单任务，通常无需工具或仅需1个工具，步骤不超过5步（例如查找网页中的特定信息）。
Level 2：中等任务，需5-10步操作，结合多种工具（如网络搜索+表格解析）。
Level 3：复杂任务，要求近乎完美的通用助手能力，需任意长操作序列和多工具协同（如跨模态信息整合与推理）

2. 下载GAIA数据集

在Jupyter Notebook 中，通过以下方式下载并获取和GAIA数据集。

2.1 配置HuggingFace镜像

import os
# 设置环境变量（仅在当前会话有效）
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

2.2 获取HuggingFace的Token

访问 HuggingFace 官网，注册账号并获取 Token。

2.3 通过huggingface-cli登录

在jupyter notebook中执行以下命令

!huggingface-cli login --token hf_HqxmRaSxadGZynzH*****

说明：

hf_HqxmRaSxadGZynzH***** 是上述第2步骤获取的HuggingFace的Token。

2.4 下载GAIA数据集

from datasets import load_dataset

ds = load_dataset("gaia-benchmark/GAIA", '2023_all', cache_dir="cache")

说明：

GAIA有三种级别数据集，分别为 2023_level1, 2023_level2, 2023_level3。
如果选择 2023_all，则默认加载所有级别的数据集。

2.5 查看数据集内容

# 查看训练集样本数
print("Train samples:", len(ds['test']))
print("Validation samples:", len(ds['validation']))

运行结果：

Train samples: 301
Validation samples: 165

通过以下代码进一步查看数据集的内容

from pprint import pprint

# 查看数据集的特征
pprint(ds['validation'].features)

# 查看第一条数据的元数据
sample = ds['validation'][0]

pprint(sample)

运行结果：

说明：

GAIA数据集中主要的组成部分即为：Question、Final Answer。
Question的问题一般是需要使用一定工具才能获取到答案的问题。
Final Answer是对应Question对应的答案，是确定性的答案。
GAIA数据集为了避免数据污染(将测试数据集拿来进行训练，从而提高榜单排名)，其数据集中只有Validation有答案，而Test数据集的答案为空。

3. 分析GAIA数据集

为了更加深入理解GAIA数据集，我们挑选部分数据集更加直观地了解其内容。

3.1 样例1

task_id：c61d22de-5f6c-4958-a7f6-5e9707bd3466
Question:

A paper about AI regulation that was originally submitted to arXiv.org in June 2022 shows a figure with three axes, where each axis has a l

最低0.47元/天解锁文章