大模型评测调研报告

agent-system-over: https://lilianweng.github.io/posts/2023-06-23-agent/#agent-system-overview

一、LLM Evaluation综述
●Evaluation Guide Book:
https://github.com/huggingface/evaluation-guidebook
●一文了解大模型性能评测数据、指标以及框架:
https://zhuanlan.zhihu.com/p/25471631745
1.1 LLM Evaluation Benchmark
知名开源:
CMMLU, MMLU, CEval, AGI-Eval, JEC-QA, MEDMCQA, MEDQA-MCMLE, MEDQA-USMLE, GAOKAO-Bench
车载:
●InCA(InCA: Rethinking In-Car Conversational System Assessment Leveraging Large Language Models)
●LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs
https://github.com/PurdueDigitalTwin/LaMPilot
●SuperCLUE-Auto
汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测
排名榜单:https://www.superclueai.com/
https://github.com/CLUEbenchmark/SuperCLUE-Auto
上述几个都是论文为主。。。开源仓库是展示用,仅能做参考用
Benchmark也可自定义
1.2 LLM Evaluation数据集
●开源:
开源Benchmark也包含LLM评测的数据集,这里的开源评测数据集一般指Benchmark中附带着开源的评测数据集。
●商业:
https://hub.opencompass.org.cn/home
●自制:
可根据选取的LLM Evaluation框架使用的评测集规则自制评测数据集。

1.3 加载模型方式
加载模型权重或调用API评测
1.4 评测方法
客观评测
做填空题、单选题、多选题
主观评测
开放式主观问答题
人类或LLM对模型的回答进行打分
长文本大海捞针(Needle In A Haystack)测试
二、LLM Evaluation榜单
国外:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
国内:https://rank.opencompass.org.cn/home
车载:https://www.superclueai.com/
三、LLM Evaluation框架
Tips:
前三个(OpenAI/Eval、lm-evaluation-harness、OpenCompass)工程性高,使用人数多,后面几个LLM评测框架偏向论文创新,可在写专利时参考思路,实用性、可运行性未知。OpenCompass中文社区强大,可参考资料多,可与其作者上海人工智能实验室团队进行沟通交流。VLMEvalKit为OpenCompass评测系列中的多模态大模型评测框架。

Idea:
先使用OpenAI/Eval进行小规模数据的实验,然后选取lm-evaluation-harness或Opencompass进行本地部署。

3.1 OpenAI/Eval
项目地址:https://github.com/openai/evals
Tutorial:
1.https://www.aidoczh.com/docs/openai_cookbook/examples/evaluation/Getting_Started_with_OpenAI_Evals/
2.https://cookbook.openai.com/examples/evaluation/getting_started_with_openai_evals
注:需在OpenAI Platform上用境外卡或apple充值购买api。
3.2 lm-evaluation-harness
项目地址:https://github.com/EleutherAI/lm-evaluation-harness
Tutorial:
https://zhuanlan.zhihu.com/p/671235487
https://github.com/EleutherAI/lm-evaluation-harness/blob/main/docs/new_task_guide.md
https://blog.csdn.net/qq_41185868/article/details/139787790
3.3 OpenCompass

官网地址:https://opencompass.org.cn/home
项目地址:https://github.com/open-compass/opencompass
Tutorial:https://opencompass.readthedocs.io/zh-cn/latest/get_started/installation.html
3.4 VLMEvalKit
项目地址:https://github.com/open-compass/VLMEvalKit
Tutorial:https://vlmevalkit.readthedocs.io/zh-cn/latest/

3.5 FreeEval

项目地址:
https://github.com/WisdomShell/FreeEval

3.6 UltraEval

项目地址:https://github.com/OpenBMB/UltraEval
3.7 Auto-Arena-LLMs
Automating LLM Evaluations with Agent Peer-battles and Committee Discussions
创新性的自动化评测工具,通过多种 LLM 代理之间的对战(peer-battles)和委员会讨论(committee discussions),全面评估 LLM 的能力。
项目首页:
https://auto-arena.github.io/
项目地址:
https://github.com/DAMO-NLP-SG/Auto-Arena-LLMs

三、LLM Evaluation论文
LLM Evaluation综述性论文:
https://arxiv.org/abs/2307.03109
会议论文选集:
https://mp.weixin.qq.com/s/wHqVVJToP18zgLzEizd3Tg
InCA:
●https://arxiv.org/abs/2311.07469
FreeEval:
●https://aclanthology.org/2024.emnlp-demo.1.pdf
●论文解读:https://zhuanlan.zhihu.com/p/13035659633
UltraEval:https://arxiv.org/abs/2404.07584

LLM Evaluation 综述

Evaluation Guide Book

1.1 LLM Evaluation Benchmark

知名开源

  • CMMLU, MMLU, CEval, AGI-Eval, JEC-QA, MEDMCQA, MEDQA-MCMLE, MEDQA-USMLE, GAOKAO-Bench

车载

上述几个都是论文为主,开源仓库是展示用,仅能做参考用。Benchmark也可自定义。

1.2 LLM Evaluation 数据集

开源

  • 开源Benchmark也包含LLM评测的数据集,这里的开源评测数据集一般指Benchmark中附带着开源的评测数据集。

商业

自制

  • 可根据选取的LLM Evaluation框架使用的评测集规则自制评测数据集。

1.3 加载模型方式

  • 加载模型权重或调用API评测

1.4 评测方法

客观评测

  • 做填空题、单选题、多选题

主观评测

  • 开放式主观问答题
  • 人类或LLM对模型的回答进行打分
  • 长文本大海捞针(Needle In A Haystack)测试

二、LLM Evaluation 榜单


三、LLM Evaluation 框架

Tips:

  • 前三个(OpenAI/Eval、lm-evaluation-harness、OpenCompass)工程性高,使用人数多。
  • 后面几个LLM评测框架偏向论文创新,可在写专利时参考思路,实用性、可运行性未知。
  • OpenCompass中文社区强大,可参考资料多,可与其作者上海人工智能实验室团队进行沟通交流。
  • VLMEvalKit为OpenCompass评测系列中的多模态大模型评测框架。

Idea:

  • 先使用OpenAI/Eval进行小规模数据的实验,然后选取lm-evaluation-harness或OpenCompass进行本地部署。

3.1 OpenAI/Eval

注:需在OpenAI Platform上用境外卡或apple充值购买api。

3.2 lm-evaluation-harness

3.3 OpenCompass

3.4 VLMEvalKit

3.5 FreeEval

3.6 UltraEval

3.7 Auto-Arena-LLMs

  • Automating LLM Evaluations with Agent Peer-battles and Committee Discussions
    • 创新性的自动化评测工具,通过多种 LLM 代理之间的对战(peer-battles)和委员会讨论(committee discussions),全面评估 LLM 的能力。
  • 项目首页: Auto-Arena-LLMs
  • 项目地址: Auto-Arena-LLMs GitHub

四、LLM Evaluation 论文

LLM Evaluation 综述性论文

会议论文选集

InCA

FreeEval

UltraEval


五、LLM Evaluation 展望

  • 面向AGI的评测体系设计
  • 大模型动态评测自动化构建策略
  • 复杂智能体评测系统
  • 模型性能Scaling Law分析与探索
  • 能力来源与泛化性分析
  • 可靠的自动化主观评测
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值