大语言模型评测论文HELM阅读笔记

斯坦福大学团队的HELM文章详细评估了大语言模型的训练成本、性能对比、参数影响及多种任务和数据集的应用。文章强调了Prompt对模型的影响,提出了7个通用评估指标,并对多个模型在问答、信息检索等任务上的表现进行了全面比较。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章目录


这篇文章是斯坦福大学的团队完成的一篇大语言模型的评测文章,文章的简称为HELM。

  • 大语言模型的训练成本:目前来说,训练一个大语言模型的成本都在1000万人民币以上。

  • 效果最好的大模型:文章中提出InstrcutGPT-v2在整体任务上表现最好。

  • 开源大模型和闭源大模型的效果对比:开源的大语言模型效果一般比闭源的语言大模型效果差一些。

  • 模型效果和参数量的关系:一般来说,模型越大效果越好;如果需要在某一个领域做的比较好,则模型参数至少需要500万。

  • Prompt提示词对大语言模型的影响:所有的语言模型都对Prompt非常敏感。

  • 文章的主要卖点:文章将NLP大模型的应用场景和评估方法进行了分类,选择了7个评价指标,并进行了16个核心场景、30个大语言模型的评测。相较而言,其他的评测文章都只是对于某些特定的数据集基于某几个特定的指标进行了评测。

  • 文章的任务和数据集选择:包括问答任务和数据集、信息检索任务和数据集、摘要生成任务和数据集、情感分析任务和数据集、毒性检测任务和数据集以及其他类型的文本分类任务和数据集。

    • 问答任务和数据集: 作者选择的数据集包括Natural Questions(用户在Google上搜索的较长问题,这些问题在维基百科中可以找到答案)、NarrativeQA(读一段故事然后回答问题,相当于阅读理解)、QUAC(多轮提问,后面的问题与后面的问答相关)、一个常识数据集、Open Book QA(较简单的问答数据集)、Truthful QA(判定大模型是否捏造事实的数据集)、MMLU(大学课程内容选择题)、一个是非数据集。
    • 信息检索任务和数据集:对于输入的键和一个大的文本集,从这个文本集中找出与该键最相关的K句话,并对结果进行排序。目前,信息检索已经成为网页搜索和产品搜索的关键技术。大语言模型现在主要是用于最后的排序部分而非相关性查找部分。使用的数据集是微软的macro数据集。
    • 摘要生成任务和数据集:大语言模型在摘要生成方面取得了较大的进展。摘要生成考验的是模型的抽象能力而非抽取能力。本篇论文的作者采用了三种类型的评测指标,分别是基于自动化的工具的评测,另一个是判定结果与原始文章的忠诚度以及判定结果是否仅仅是对文章内容的摘取。使用的数据集分别是CNN和每日邮报的数据集,以及一个XSum数据集。CNN和每日邮报数据集都是新闻摘要数据集,Xsum数据集的摘要长度相较于之前的摘要生成数据集来说更加简短。
    • 情感分析任务和数据集:本文的作者只使用了一个对电影评价的IMDB数据集。
    • 毒性检测任务和数据集:判定输入的内容中是否含有毒性的内容。作者在这个任务上仍然只使用了一个数据集CivilComments,其中的内容是用户对新闻的留言。
    • 其他类型的文本分类:本篇论文的作者们还使用了一个RAFT数据集,其中包含了11种类型的文本分类。
  • 大语言模型的评估指标:作者们认为评估指标并不应该与具体是哪一个下游任务相关,才能更好地对大语言模型进行评价。经过筛选,选择的七个评价指标分别是精度、偏见、公平性、推断效率、稳健性、有毒性、不确定性和校准。另外,还考虑训练了模型的训练效率、环境影响和法律效应等。

    • 精度:在不同下游任务中的精度定义是不同的。首先,第一种精度的定义是指输出内容和标准答案一模一样;第二种精度是指输出内容和标准答案可以有细微的合理差别;第三种精度是F1分数。对于信息检索任务,常用的精度评价指标有RR和NDCK(较为常用);对文本总结任务,常用的精度评价指标是ROUGE-2;对于语言模型任务,常用的精度评价指标是BPB。
    • 校准和不确定性:模型被校准过了的定义是指其预测的概率是有一定意义的。在本篇论文中,作者们采用了ECE(期望校准错误,用于比较平均精度和预测精度的区别)和SCA(选择分类精度,模型只对置信度较高的做预测,置信度较低的不做预测,从而使得模型给出预测的样本正确率都较高)。
    • 稳健性:输入的数据发生不同的变化时,模型是否还是能很好地处理。在本篇论文中,作者分别使用了invariance和equivarance两种稳健性评价指标,作者也指出这两种稳健性检验都仅仅是局部的。Invariance是指修改原先输入中字符的大小写,一些简单的拼写错误和同义词替换等,而Equivarance是指可能改变原先输入内容的一些语义(作者们为此使用了一个名为constrast set的数据集)。作者检验稳健性时使用的两个数据集分别是BoolQ和IMDB。
    • 公平性:在本篇论文中作者们考虑了两种公平性,分别是反事实公平性和性能差距。反事实公平性是指将原本的输入文本中的人物的种族和性别等作一个变化,看看模型的表现是不是不一样;性能差距是指会评价模型对不同类型人种对应输入组的输出区别。
    • 偏见和刻板印象:判定模型所生成的输出是否过度偏向于某一个社会群体。首先,判定模型生成的结果会不会过度消除或偏袒某一个社会群体;接着,判定模型是否有刻板印象。
    • 有毒性:为了避免模型生成有毒的输出,本篇论文的作者将模型的输出放入Perspective API中观察效果。
    • 效率:本篇论文的作者通过模型训练的耗电量(千瓦时)和碳排放来计算模型训练的效率,这个指标的计算方式较为粗糙。
  • 参与比较的模型:参与比较的模型包括Anthropic LM(窗口很大),T5,GPT-3 davinci,清华大学的GLM和俄罗斯的YaLM等。

  • 模型比较结果

    • 模型的精度比较:从精度上看,最强大的模型是Instruct Davinci v2(175B),其次是微软和NVIDIA共同制造的TNLG(530B),排名第三的是Anthropic的LM模型(只有52B),然后是开源的OPT模型(175B)。
    • 模型的校准性比较:InstructGPT ada v1表现最好,尽管其大小只有350M左右。
  • 模型大小与精度的关系:一般来说,模型越大所产生的精度越高。

<think>好的,用户想了解大型模型的评估方法和性能指标。我需要先整理已有的引用内容,看看里面有没有相关的信息。引用1提到模型评估方法和性能指标,包括泛化能力和单个模型性能的评价。引用2详细介绍了评估指标与方法,特别是第8章的内容,强调了训练集和测试集的表现。引用3提到了MMLU这个具体的评估指标,用于多任务语言理解。 首先,应该先解释大模型评估的整体框架,分为评估方法和性能指标两部分。评估方法可能包括交叉验证、留出法、自助法等,确保模型在不同数据上的泛化能力。然后性能指标需要分任务类型,比如分类、生成、多任务等,每个类型有不同的指标,如准确率、BLEU、MMLU等。 用户可能还想知道如何选择适合的评估方法,以及各个指标的具体应用场景。需要结合引用中的信息,比如偏差和方差的问题,引用1提到评估方法解决泛化能力,性能指标评价单个模型。引用2强调了测试集上的稳定性能,可能需要留出法或交叉验证。引用3的MMLU可以作为多任务评估的例子。 还要注意生成相关问题,比如如何选择评估方法、不同任务指标的区别、实际应用中的挑战等。需要确保回答结构清晰,分点列出,并且正确使用LaTeX格式,比如准确率公式用$...$,独立公式用$$...$$。同时检查是否有遗漏的引用,确保每个引用都自然地融入回答中,比如在提到MMLU时加上[^3]。 最后,确保语言口语化,避免使用专业术语过多,但又要准确。可能需要先介绍基本概念,再分述方法和指标,最后总结应用中的注意事项。需要验证每个部分是否符合引用内容,避免错误信息。</think>### 大模型评估方法与性能指标详解 #### 一、大模型评估的核心目标 大模型评估旨在衡量模型在**泛化能力**、**任务适应性**和**计算效率**等方面的表现。由于模型参数量大、训练成本高,评估需兼顾性能与资源消耗的平衡[^1][^2]。 --- #### 二、评估方法体系 1. **数据划分方法** - **留出法 (Hold-out)**: 将数据集按比例(如8:2)划分为训练集和测试集,简单但可能受数据分布影响[^1] $$ \text{数据集} = D_{\text{train}} \cup D_{\text{test}} $$ - **交叉验证 (Cross-Validation)**: 通过$k$次划分降低评估方差,常用于小规模数据场景 - **自助法 (Bootstrap)**: 有放回抽样构建评估集,适合数据量不足时使用 2. **多维度验证** - **零样本/少样本学习验证**: 测试模型在未见任务上的适应能力[^3] - **领域迁移测试**: 验证模型在跨领域数据(如医学文本→法律文本)的表现 - **对抗样本测试**: 注入噪声或扰动数据,评估模型鲁棒性 --- #### 三、核心性能指标 根据任务类型可分为以下三类: | 任务类型 | 典型指标 | 计算公式/说明 | |----------------|-----------------------------------|-----------------------------------| | **语言理解** | MMLU[^3]、SuperGLUE | $ \text{MMLU} = \frac{\text{正确数}}{\text{总样本数}} $ | | **文本生成** | BLEU、ROUGE、Perplexity | $ \text{BLEU} = \exp\left(\sum_{n=1}^N w_n \log p_n\right) $ | | **多模态任务** | CIDEr、CLIP Score | 基于图文对齐度的余弦相似度计算 | **特殊场景指标**: - **能耗效率**: 每百万token的能耗(瓦时) - **推理速度**: tokens/秒(TPS) - **微调适应性**: 下游任务准确率提升比率 --- #### 四、评估实践要点 1. **指标组合策略** 综合使用$3-5$个互补指标,如生成任务同时使用BLEU(表面相似度)和BERTScore(语义相似度) 2. **长尾效应处理** 对低频类别采用加权评估: $$ \text{Weighted Accuracy} = \sum_{i=1}^C w_i \cdot \text{Acc}_i $$ 其中$w_i$与类别频率成反比 3. **人类评估校准** 引入人工评分与自动指标的混合评估体系,通过Krippendorff's $\alpha$系数衡量评分一致性[^2] --- #### 五、前沿评估框架 1. **HELM (Holistic Evaluation)** 涵盖12个核心场景、16种能力维度的综合评估体系 2. **BigBench** 包含超过200个推理任务的超大规模评测集 3. **模型竞技场** 基于Elo评分系统的对比评估机制,通过成对比较计算相对能力值 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值