一个文本大模型的自我修养

最新推荐文章于 2024-08-13 12:45:00 发布

青Cheng序员石头

最新推荐文章于 2024-08-13 12:45:00 发布

阅读量406

点赞数 5

本文链接：https://blog.csdn.net/DynmicResource/article/details/138622818

版权

theme: juejin

如何辨别一个人工智能模型是否优于另一个模型？通过人为主观的认知是远远不够的，最科学的方法是通过基准测试量化自然语言的数值指标，而且很幸运现在已经存在数百个公允的基准测试让我们能客观找到优秀的模型。

排名的漩涡

不管是开源还是闭源的大模型，基本上每次发布都会类比同等参数量级，表明自己在很多或者一些方面优于其它模型，比如下面两张图给到的Gemma和Claude3，那如何看懂这些基准测试的排名呢？

Gemma Claude3

文本大模型基准测试

7 Popular LLM Benchmarks Explained

这七种基准测试适用范围是评估文本大模型，常常用于Chatbot Arena 和 OpenLLM Leaderboard 排名的依据。如果是要评估多模态和聊天机器人时，又是另一组基准。

MMLU

这是一个大型多任务测试，由来自不同知识分支的多项选择题组成。测试内容涵盖人文、社会科学、硬科学等学科，以及对某些人来说非常重要的其他学习领域。其中包括初等数学、美国历史、计算机科学、法律等 57 项任务。要在该测试中获得高准确率，模型必须具备广泛的世界知识和解决问题的能力。

mmlu in huggingface

ARC (来自艾伦人工智能研究所)

这是一个新的数据集，包含 7,787 道真实的小学科学选择题，难度在3年级-9年级左右，旨在鼓励对高级问题解答的研究。该数据集分为 "挑战集 "和 "简易集"，前者只包含通过基于检索的算法和词语共现算法回答错误的问题。我们还包括一个由超过 1400 万个与任务相关的科学句子组成的语料库，以及针对该数据集的三种神经基线模型的实现。我们将 ARC 作为一项挑战提交给社区。

侧重科学推理和理解。

ai2_arc in huggingface

truthful_qa

TruthfulQA 是衡量语言模型在生成问题答案时是否真实的基准。该基准包含 817 个问题，涉及 38 个类别，包括健康、法律、金融和政治。这些问题都是精心设计的，目的是让一些人类由于错误的信念或误解而做出错误的回答。要想取得好成绩，模型必须避免生成从模仿人类文本中学到的错误答案。

winogrande

WinoGrande 是一个由 44k 个问题组成的新集合，其灵感来自 Winograd Schema Challenge(Levesque、Davis 和 Morgenstern，2011 年)，但经过调整以提高其规模和对特定数据集偏差的稳健性。这些问题被表述为带有二元选项的填空任务，目标是为给定句子选择正确的选项，这需要常识推理。 winogrande in huggingface

GSM8K

GSM8K (Grade School Math 8K)是一个包含 8.5K 个高质量、语言多样化的小学数学单词问题的数据集。创建该数据集的目的是为需要多步骤推理的基本数学问题的答题任务提供支持。

gsm8k in huggingface

MT Bench

这组评估提示由 LMSYS org 创建，用于更好地评估聊天模型.

mt_bench_prompts in huggingface

HellASWAG

机器真的能完成你的句子吗？"是一个用于常识性 NLI 的新数据集。在 ACL2019 上发表了一篇论文。

应用于研究论文，比如更长的上下文，更难回答的结果。 hellaswag in huggingface

WinoGrande

winogrande in huggingface

青Cheng序员石头

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
一个文本大模型的自我修养

theme: juejin 如何辨别一个人工智能模型是否优于另一个模型？通过人为主观的认知是远远不够的，最科学的方法是通过基准测试量化自然语言的数值指标，而且很幸运现在已经存在数百个公允的基准测试让我们能客观找到优秀的模型。排名的漩涡不管是开源还是闭源的大模型，基本上每次发布都会类比同等参数量级，表明自己在很多或者一些方面优于其它模型，比如下面两张图给到的Gemma和Clau...
复制链接

扫一扫