背景
为了能够更好地评估Agent的能力,我们需要在OpenCompass的评测框架基础上,尝试引入当前最为严苛的Agent能力评估基准:GAIA(General AI Assistant Benchmark),本章是对GAIA基准测试的调研总结文档。
目标
- 目标1:调研GAIA基准测试,了解其数据内容基本构成。
- 目标2:运行GAIA基准测试,了解其运行方式。
- 目标3:在OpenCompass框架下,尝试引入GAIA基准测试。
分析
1. 了解GAIA基准测试
GAIA(A Benchmark for General AI Assistants)
是由Meta、HuggingFace等团队提出的通用AI助手评估基准,旨在测试AI系统在现实任务中的推理、多模态处理、工具使用等基础能力。GAIA(测试重点考察模型的网络浏览、多模态处理、代码执行和文件推理能力,并设置三个难度级别(基础、进阶、专家级)。例如,任务可能涉及从动态网页中提取数据、解析PDF图表,或结合图像与文本进行综合分析。
论文地址:https://arxiv.org/pdf/2311.12983
huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard
问题规模:共包含466
个问题,其中166
个公开开发集问题和答案,300
个测试集问题保留答案用于排行榜竞争。
问题类型:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。
任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。
答案格式:每个问题对应唯一、简短的事实性答案(如字符串、数字或列表),便于自动化评估。
难度分级:
- Level 1:简单任务,通常无需工具或仅需1个工具,步骤不超过5步(例如查找网页中的特定信息)。
- Level 2:中等任务,需5-10步操作,结合多种工具(如网络搜索+表格解析)。
- Level 3:复杂任务,要求近乎完美的通用助手能力,需任意长操作序列和多工具协同(如跨模态信息整合与推理)
2. 下载GAIA数据集
在Jupyter Notebook 中,通过以下方式下载并获取和GAIA数据集。
2.1 配置HuggingFace镜像
import os
# 设置环境变量(仅在当前会话有效)
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
2.2 获取HuggingFace的Token
- 访问 HuggingFace 官网,注册账号并获取 Token。
2.3 通过huggingface-cli登录
在jupyter notebook中执行以下命令
!huggingface-cli login --token hf_HqxmRaSxadGZynzH*****
说明:
hf_HqxmRaSxadGZynzH*****
是上述第2步骤获取的HuggingFace的Token。
2.4 下载GAIA数据集
from datasets import load_dataset
ds = load_dataset("gaia-benchmark/GAIA", '2023_all', cache_dir="cache")
说明:
- GAIA有三种级别数据集,分别为
2023_level1
,2023_level2
,2023_level3
。 - 如果选择
2023_all
,则默认加载所有级别的数据集。
2.5 查看数据集内容
# 查看训练集样本数
print("Train samples:", len(ds['test']))
print("Validation samples:", len(ds['validation']))
运行结果:
Train samples: 301
Validation samples: 165
通过以下代码进一步查看数据集的内容
from pprint import pprint
# 查看数据集的特征
pprint(ds['validation'].features)
# 查看第一条数据的元数据
sample = ds['validation'][0]
pprint(sample)
运行结果:
说明:
GAIA数据集
中主要的组成部分即为:Question
、Final Answer
。Question
的问题一般是需要使用一定工具才能获取到答案的问题。Final Answer
是对应Question对应的答案,是确定性的答案。GAIA数据集
为了避免数据污染
(将测试数据集拿来进行训练,从而提高榜单排名),其数据集中只有Validation
有答案,而Test
数据集的答案为空。
3. 分析GAIA数据集
为了更加深入理解GAIA数据集,我们挑选部分数据集更加直观地了解其内容。
3.1 样例1
task_id:c61d22de-5f6c-4958-a7f6-5e9707bd3466
Question:
A paper about AI regulation that was originally submitted to arXiv.org in June 2022 shows a figure with three axes, where each axis has a l