微调大模型评测排行榜权威

在这里插入图片描述

1、opencompass评测,通用能力测试,理解,推理、知识、语言等

https://rank.opencompass.org.cn/leaderboard-llm/?m=24-09
在这里插入图片描述

2、SuperCLUE是一个中文通用大模型综合性评测基准,

https://www.superclueai.com/
在这里插入图片描述
Today, we’re introducing DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token.

3、open_llm_leaderboard

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

  • Al2推理挑战(25-shot):一组小学科学问题
  • HellaSwag(10-shot):一个测试常识推理的任务,对人类来说很容易(大约95%),但对SOTA模型来说具有挑战性
  • MMLU(5-shot)-用于测量文本模型的多任务准确性。测试涵盖57个任务,包括基本数学、美国历史、计算机科学、法律等等。
  • TruthfulQA(0-shot)-用于测量模型复制在在线常见虚假信息中的倾向性
    在这里插入图片描述

4 、Chatbot Arena

Chatbot Arena是一个大型语言模型(LLM)的基准平台,以众包方式进行匿名随机对战,该项目方LMSYSOrg是由加州大学伯克利分校、加州大学圣地亚哥分校
和卡内基梅隆大学合作创立的研究组织。
https://lmarena.ai/
在这里插入图片描述

5、multi-task-language-understanding-on-mmlu

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

其他:
琅琊榜 https://www.langyb.com/
在这里插入图片描述

datalearner:https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard
在这里插入图片描述
Massive Text Embedding Benchmark (MTEB) Leaderboard 文本向量排行榜
https://huggingface.co/spaces/mteb/leaderboard
在这里插入图片描述

  • 1、语言
    MMLU - 针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力
    C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力
  • 2.通识
    ARC-C 它是 ARC 数据集的一个子集,ARC 数据集是一个需要推理和常识性知识才能回答的大规模选择题集合。ARC-c 数据集包含 10,457 个问题,这些问题比原始 ARC 数据集中的问题更难、更多样,而且无法用简单的检索或词语联想方法来回答
  • 3 推理
    BBH - BIG-Bench Hard (BBH) 是一个大语言模型测试集合。BBH 从 BIG-Bench 中提取了 23 个有挑战性的任务,当时的语言模型在这些任务上没有超过人类的表现
  • 4.数学
    GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性
  • 代码
    MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100
    Human Eval - 用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。 这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100
  • 5.长文本
    L-Eval - L-Eval 是一个全面的长上下文语言模型(LCLMs)评估套件,包含 20 个子任务、508 个长文档,以及超过 2,000 个人工标注的查询-回复对,涵盖了多样的问题风格、领域和输入长度(3k ~ 200k 个 token)
  • 6、工具
    T-Eval - T-Eval 旨在逐步评估工具使用能力。T-Eval 将工具使用评估分解为沿模型能力的几个子领域,有助于全面和孤立地理解大型语言模型(LLMs)的能力
    💡以上都是客观测评,而为了更好的体验,还有主观测评,也就是将问题提交两个匿名模型同时响应,多轮对话后,最终由用户确认,哪个模型的体验更优秀

opencompass司南评测数据集
在这里插入图片描述

关于ConfyUI大规模预训练模型的信息,在现有资料中并未直接提及ConfyUI的具体细节[^1]。然而,可以提供一般性的有关大规模预训练模型的介绍。 ### ConfyUI 大规模预训练模型概述 大型预训练模型是指那些通过大量数据集预先训练过的机器学习模型,这些模型能够捕捉到输入数据中的复杂模式并应用于多种下游任务。对于像ConfyUI这样的平台来说,其提供的大模型通常具备以下几个特点: - **广泛的适用性**:适用于自然语言处理、计算机视觉等多个领域。 - **高性能表现**:经过精心设计和优化后的架构能够在各种评测指标上取得优异成绩。 - **易于迁移学习**:支持微调(fine-tuning),使得开发者可以根据特定应用场景快速调整模型参数以适应新任务需求。 为了更好地利用这类强大的工具,官方文档通常是不可或缺的学习资源之一。虽然具体针对ConfyUI大模型的指南可能需要访问该产品的官方网站或相关社区来获得最权威版本,但是一般而言,一份完整的教程应该覆盖如下方面: #### 安装配置环境 说明如何设置开发环境以及安装必要的依赖库,确保用户可以在本地顺利运行实验代码。 ```bash pip install confyuilib==latest_version ``` #### 数据准备与预处理 指导使用者收集整理适合于所选任务的数据集,并对其进行清洗转换以便作为模型输入。 #### 模型加载与推理 展示怎样加载已有的预训练权重文件并对新的样本执行预测操作。 ```python from confyuilib import load_model, predict model = load_model('path_to_pretrained_weights') predictions = predict(model=model, input_data=new_samples) ``` #### 微调技巧分享 给出一些实用建议帮助读者更高效地完成自定义任务上的性能提升工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai君臣

学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值