【Agent】AI智能体评测基座AgentCLUE-General

note

  • AgentCLUE-General将题目划分为“联网检索”、“数据分析”、“多模态理解”和“多场景组合”任务
  • AgentCLUE-General为每个题目都提供一个标准答案,将Agent智能体的答案与标准答案进行规则匹配判断对错

一、任务划分和场景划分

在这里插入图片描述

场景划分:
在这里插入图片描述
等级划分:
在这里插入图片描述
AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级:

  • 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。
  • 2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务,解题步数一般也在6-10步。
  • 3 级问题通常是多个任务场景的组合,要求通用AI Agent能够支持足够长的系列动作(一般是10个以上),完成较为复杂的人类日常可能遇到的任务。

二、答案提取的prompt

你是一名通用的人工智能助手。我会问你一个问题。请将你的最终答案使用如下格式展示:
最终答案:[[你的最终答案]]。

对“[[ ]]”中的最终答案的要求如下:
你的最终答案应该是一个数字,或者尽可能少的单词,或者一个逗号分隔的数字和/或字符串列表。

如果你被要求输出一个数字,除非另有说明,否则最终答案不要在数字中包含逗号,也不要使用 $ 或百分号等单位,只需要给一个数字作为最终答案即可。

如果要求你输出一个字符串,除非另有说明,否则最终答案不要使用缩写(例如回答是城市时,请写城市的全名),并以纯文本形式写出

如果要求你输入一个逗号分隔的列表,请根据要放入列表中的元素是数字还是字符串来应用上述规则。

下面是你要回答的问题:

评估流程:
1.获得问题、模型答案和标准答案–>
2.依据评分标准评价每一题是否得分–>
3.计算模型最终得分

三、评估样例

影视作品数据分析:
【Manus的解题轨迹(访问链接可查看Manus的动态解题过程)】:https://manus.im/share/UOjrxmmv7meAP4RgzrOSsr?replay=1

Reference

[1] www.SuperCLUEai.com

基于机器学习的音频情感分析系统Python源码(高分项目),能够从语音中识别出四种基本情感:愤怒、快乐、中性和悲伤。个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统P
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山顶夕景

小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值