文章目录
1、opencompass评测,通用能力测试,理解,推理、知识、语言等
https://rank.opencompass.org.cn/leaderboard-llm/?m=24-09
2、SuperCLUE是一个中文通用大模型综合性评测基准,
https://www.superclueai.com/
Today, we’re introducing DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token.
3、open_llm_leaderboard
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- Al2推理挑战(25-shot):一组小学科学问题
- HellaSwag(10-shot):一个测试常识推理的任务,对人类来说很容易(大约95%),但对SOTA模型来说具有挑战性
- MMLU(5-shot)-用于测量文本模型的多任务准确性。测试涵盖57个任务,包括基本数学、美国历史、计算机科学、法律等等。
- TruthfulQA(0-shot)-用于测量模型复制在在线常见虚假信息中的倾向性
4 、Chatbot Arena
Chatbot Arena是一个大型语言模型(LLM)的基准平台,以众包方式进行匿名随机对战,该项目方LMSYSOrg是由加州大学伯克利分校、加州大学圣地亚哥分校
和卡内基梅隆大学合作创立的研究组织。
https://lmarena.ai/
5、multi-task-language-understanding-on-mmlu
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
其他:
琅琊榜 https://www.langyb.com/
datalearner:https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard
Massive Text Embedding Benchmark (MTEB) Leaderboard 文本向量排行榜
https://huggingface.co/spaces/mteb/leaderboard
- 1、语言
MMLU - 针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力 - 2.通识
ARC-C 它是 ARC 数据集的一个子集,ARC 数据集是一个需要推理和常识性知识才能回答的大规模选择题集合。ARC-c 数据集包含 10,457 个问题,这些问题比原始 ARC 数据集中的问题更难、更多样,而且无法用简单的检索或词语联想方法来回答 - 3 推理
BBH - BIG-Bench Hard (BBH) 是一个大语言模型测试集合。BBH 从 BIG-Bench 中提取了 23 个有挑战性的任务,当时的语言模型在这些任务上没有超过人类的表现 - 4.数学
GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性 - 代码
MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100
Human Eval - 用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。 这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100 - 5.长文本
L-Eval - L-Eval 是一个全面的长上下文语言模型(LCLMs)评估套件,包含 20 个子任务、508 个长文档,以及超过 2,000 个人工标注的查询-回复对,涵盖了多样的问题风格、领域和输入长度(3k ~ 200k 个 token) - 6、工具
T-Eval - T-Eval 旨在逐步评估工具使用能力。T-Eval 将工具使用评估分解为沿模型能力的几个子领域,有助于全面和孤立地理解大型语言模型(LLMs)的能力
💡以上都是客观测评,而为了更好的体验,还有主观测评,也就是将问题提交两个匿名模型同时响应,多轮对话后,最终由用户确认,哪个模型的体验更优秀
opencompass司南评测数据集