note
- 一些大模型的评估基准benchmark:
- 多轮:MTBench
- 关注评估:agent bench
- 长文本评估:longbench,longeval
- 工具调用评估:toolbench
- 安全评估:cvalue,safetyprompt等
文章目录
常见评测benchmark
图源自《A Survey on Evaluation of Large Language Models》
Agent相关的评测集
一、 GAIA
《GAIA: A Benchmark for General AI Assistants》是一个面向通用AI助手能力的基准评测体系。
1.组成:里面有466个精心设计的问题,其中分为三个级别,Lv.1、Lv.2、Lv.3。
(a) Level 1 :通常不需要工具,或者最多只需要一个工具,但不超过5个步骤