【模型测试】基于OpenCompass实现Agent最为苛刻的基准评测:GAIA

背景

为了能够更好地评估Agent的能力,我们需要在OpenCompass的评测框架基础上,尝试引入当前最为严苛的Agent能力评估基准:GAIA(General AI Assistant Benchmark),本章是对GAIA基准测试的调研总结文档。

目标

  • 目标1:调研GAIA基准测试,了解其数据内容基本构成。
  • 目标2:运行GAIA基准测试,了解其运行方式。
  • 目标3:在OpenCompass框架下,尝试引入GAIA基准测试。

分析

1. 了解GAIA基准测试

GAIA(A Benchmark for General AI Assistants) 是由Meta、HuggingFace等团队提出的通用AI助手评估基准,旨在测试AI系统在现实任务中的推理、多模态处理、工具使用等基础能力。GAIA(测试重点考察模型的网络浏览、多模态处理、代码执行和文件推理能力,并设置三个难度级别(基础、进阶、专家级)。例如,任务可能涉及从动态网页中提取数据、解析PDF图表,或结合图像与文本进行综合分析。

论文地址:https://arxiv.org/pdf/2311.12983

huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard

问题规模:共包含466个问题,其中166个公开开发集问题和答案,300个测试集问题保留答案用于排行榜竞争。
问题类型:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。
任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。
答案格式:每个问题对应唯一、简短的事实性答案(如字符串、数字或列表),便于自动化评估。

难度分级

  • Level 1:简单任务,通常无需工具或仅需1个工具,步骤不超过5步(例如查找网页中的特定信息)。
  • Level 2:中等任务,需5-10步操作,结合多种工具(如网络搜索+表格解析)。
  • Level 3:复杂任务,要求近乎完美的通用助手能力,需任意长操作序列和多工具协同(如跨模态信息整合与推理)

2. 下载GAIA数据集

在Jupyter Notebook 中,通过以下方式下载并获取和GAIA数据集。

2.1 配置HuggingFace镜像
import os
# 设置环境变量(仅在当前会话有效)
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"  
2.2 获取HuggingFace的Token
  1. 访问 HuggingFace 官网,注册账号并获取 Token。
2.3 通过huggingface-cli登录

在jupyter notebook中执行以下命令

!huggingface-cli login --token hf_HqxmRaSxadGZynzH*****

说明:

  • hf_HqxmRaSxadGZynzH***** 是上述第2步骤获取的HuggingFace的Token。
2.4 下载GAIA数据集
from datasets import load_dataset

ds = load_dataset("gaia-benchmark/GAIA", '2023_all', cache_dir="cache")

说明:

  • GAIA有三种级别数据集,分别为 2023_level1, 2023_level2, 2023_level3
  • 如果选择 2023_all,则默认加载所有级别的数据集。
2.5 查看数据集内容
# 查看训练集样本数
print("Train samples:", len(ds['test']))
print("Validation samples:", len(ds['validation']))

运行结果:

Train samples: 301
Validation samples: 165

通过以下代码进一步查看数据集的内容

from pprint import pprint

# 查看数据集的特征
pprint(ds['validation'].features)

# 查看第一条数据的元数据
sample = ds['validation'][0]

pprint(sample)

运行结果:

说明:

  • GAIA数据集中主要的组成部分即为:QuestionFinal Answer
  • Question的问题一般是需要使用一定工具才能获取到答案的问题。
  • Final Answer是对应Question对应的答案,是确定性的答案。
  • GAIA数据集为了避免数据污染(将测试数据集拿来进行训练,从而提高榜单排名),其数据集中只有Validation有答案,而Test数据集的答案为空。

3. 分析GAIA数据集

为了更加深入理解GAIA数据集,我们挑选部分数据集更加直观地了解其内容。

3.1 样例1

task_idc61d22de-5f6c-4958-a7f6-5e9707bd3466
Question:

A paper about AI regulation that was originally submitted to arXiv.org in June 2022 shows a figure with three axes, where each axis has a l
基于Python的医学知识图谱问答系统源码+说明文档(毕业设计),个人经导师指导并认可通过的高分设计项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做大作业、毕业设计的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业设计)基于Python的医学知识图谱问答系统实现源码+说明文档(毕业
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洞明智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值