大语言模型系列

贝猫说python

已于 2024-08-27 17:35:25 修改

阅读量1.1k

点赞数

文章标签：语言模型人工智能自然语言处理

于 2023-10-25 10:26:51 首次发布

本文链接：https://blog.csdn.net/m0_37192554/article/details/134028638

版权

本文概述了四个主要的大模型评测基准，包括MMLU（多任务语言理解）、C-Eval（中文基础模型评估）、AGIEval（通用能力评测）和数学推理的GSM8K，以及编程能力的HumanEval和MBPP。此外，还提及了大模型如GPT-4在编程能力上的进步和国产模型的开源情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

———————————————————————————————————————————

推理和数学能力4个评测基准：

MMLU ：全称Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。论文地址：https://arxiv.org/abs/2009.03300
C-Eval ： C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和匹兹堡大学研究人员在2023年5月份联合推出，它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。论文地址：https://arxiv.org/abs/2305.08322
AGI Eval ：微软发布的大模型基础能力评测基准，在2023年4月推出，主要评测大模型在人类认知和解决问题的一般能力，涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试，包含中英文数据。因此，该测试更加倾向于人类考试结果，涵盖了中英文，论文地址：https://arxiv.org/abs/2304.06364
GSM8K ： OpenAI发布的大模型数学推理能力评测基准，涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大，语言更具多样性，题目也更具挑战性。该项测试在2021年10月份发布，至今仍然是非常困难的一种测试基准，论文地址：https://arxiv.org/abs/2110.14168

可以看到，这四种大模型评测结果都有各自的针对性，从一般的知识与广泛的能力到中英文，再到数学推理，应该说是基本可以覆盖大多数的需求。

1、编程能力评测基准包括2个：

Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集，由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同，有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是，它不仅仅依赖于代码的语法正确性，还依赖于功能正确性。也就是说，生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务，因为在实际编程中，代码不仅需要语法正确，还需要能够正确执行预定任务。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100
MBPP - MBPP（Mostly Basic Programming Problems）是一个数据集，主要包含了974个短小的Python函数问题，由谷歌在2021年推出，这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100

各大模型评估

各大模型编程能力评估，gpt-4（84%，截至202311月其他模型60%都没有）

——————————————————————————————————————————

11月李开复亲自下场的大模型发布，登顶开源榜单，200k上下文窗口直接开源

国产大模型开源一哥再登场，最强双语LLM「全家桶」级开源！340亿参数超越Llama2-70B

大模型和AI到 202309 的重要进展

为什么说大模型训练很难？ - 知乎

GitHub - jeinlee1991/chinese-llm-benchmark: 中文大模型能力评测榜单：覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型，多维度能力评测。不仅提供能力评分排行榜，也提供所有模型的原始输出结果！

——————————————————————————————————————————

2、入手大语言模型

1、chatglm系列，LLaMa2开始

2、代码模型实践部署

chatglm系列+多模态（中英文）chatglm 基于llama2系列

WizardCoder-Python-34 （codellama 微调而来的，接近gpt4，接近gpt4）

codeLLama 基于llama2 微调（7月份开源出来，精度类似gpt3.5）

deepseek code （11月出来的，开源模型强，接近gpt4）

WizardCoder-33B-v1.1，EvalPlus排行榜开源第一

大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

学会4个，chatglm1.2.3，LLaMa2，codellama, baichuan, Aquila2