大语言模型评测论文HELM阅读笔记

最新推荐文章于 2025-03-13 17:27:41 发布

北岛寒沫

最新推荐文章于 2025-03-13 17:27:41 发布

阅读量2k

点赞数 22

分类专栏：计算机科研文章标签：语言模型笔记人工智能

本文链接：https://blog.csdn.net/hanmo22357/article/details/134715517

版权

计算机科研专栏收录该内容

28 篇文章

订阅专栏

斯坦福大学团队的HELM文章详细评估了大语言模型的训练成本、性能对比、参数影响及多种任务和数据集的应用。文章强调了Prompt对模型的影响，提出了7个通用评估指标，并对多个模型在问答、信息检索等任务上的表现进行了全面比较。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

这篇文章是斯坦福大学的团队完成的一篇大语言模型的评测文章，文章的简称为HELM。

大语言模型的训练成本：目前来说，训练一个大语言模型的成本都在1000万人民币以上。
效果最好的大模型：文章中提出InstrcutGPT-v2在整体任务上表现最好。
开源大模型和闭源大模型的效果对比：开源的大语言模型效果一般比闭源的语言大模型效果差一些。
模型效果和参数量的关系：一般来说，模型越大效果越好；如果需要在某一个领域做的比较好，则模型参数至少需要500万。
Prompt提示词对大语言模型的影响：所有的语言模型都对Prompt非常敏感。
文章的主要卖点：文章将NLP大模型的应用场景和评估方法进行了分类，选择了7个评价指标，并进行了16个核心场景、30个大语言模型的评测。相较而言，其他的评测文章都只是对于某些特定的数据集基于某几个特定的指标进行了评测。
文章的任务和数据集选择：包括问答任务和数据集、信息检索任务和数据集、摘要生成任务和数据集、情感分析任务和数据集、毒性检测任务和数据集以及其他类型的文本分类任务和数据集。
- 问答任务和数据集：作者选择的数据集包括Natural Questions（用户在Google上搜索的较长问题，这些问题在维基百科中可以找到答案）、NarrativeQA（读一段故事然后回答问题，相当于阅读理解）、QUAC（多轮提问，后面的问题与后面的问答相关）、一个常识数据集、Open Book QA（较简单的问答数据集）、Truthful QA（判定大模型是否捏造事实的数据集）、MMLU（大学课程内容选择题）、一个是非数据集。
- 信息检索任务和数据集：对于输入的键和一个大的文本集，从这个文本集中找出与该键最相关的K句话，并对结果进行排序。目前，信息检索已经成为网页搜索和产品搜索的关键技术。大语言模型现在主要是用于最后的排序部分而非相关性查找部分。使用的数据集是微软的macro数据集。
- 摘要生成任务和数据集：大语言模型在摘要生成方面取得了较大的进展。摘要生成考验的是模型的抽象能力而非抽取能力。本篇论文的作者采用了三种类型的评测指标，分别是基于自动化的工具的评测，另一个是判定结果与原始文章的忠诚度以及判定结果是否仅仅是对文章内容的摘取。使用的数据集分别是CNN和每日邮报的数据集，以及一个XSum数据集。CNN和每日邮报数据集都是新闻摘要数据集，Xsum数据集的摘要长度相较于之前的摘要生成数据集来说更加简短。
- 情感分析任务和数据集：本文的作者只使用了一个对电影评价的IMDB数据集。
- 毒性检测任务和数据集：判定输入的内容中是否含有毒性的内容。作者在这个任务上仍然只使用了一个数据集CivilComments，其中的内容是用户对新闻的留言。
- 其他类型的文本分类：本篇论文的作者们还使用了一个RAFT数据集，其中包含了11种类型的文本分类。
大语言模型的评估指标：作者们认为评估指标并不应该与具体是哪一个下游任务相关，才能更好地对大语言模型进行评价。经过筛选，选择的七个评价指标分别是精度、偏见、公平性、推断效率、稳健性、有毒性、不确定性和校准。另外，还考虑训练了模型的训练效率、环境影响和法律效应等。
- 精度：在不同下游任务中的精度定义是不同的。首先，第一种精度的定义是指输出内容和标准答案一模一样；第二种精度是指输出内容和标准答案可以有细微的合理差别；第三种精度是F1分数。对于信息检索任务，常用的精度评价指标有RR和NDCK（较为常用）；对文本总结任务，常用的精度评价指标是ROUGE-2；对于语言模型任务，常用的精度评价指标是BPB。
- 校准和不确定性：模型被校准过了的定义是指其预测的概率是有一定意义的。在本篇论文中，作者们采用了ECE（期望校准错误，用于比较平均精度和预测精度的区别）和SCA（选择分类精度，模型只对置信度较高的做预测，置信度较低的不做预测，从而使得模型给出预测的样本正确率都较高）。
- 稳健性：输入的数据发生不同的变化时，模型是否还是能很好地处理。在本篇论文中，作者分别使用了invariance和equivarance两种稳健性评价指标，作者也指出这两种稳健性检验都仅仅是局部的。Invariance是指修改原先输入中字符的大小写，一些简单的拼写错误和同义词替换等，而Equivarance是指可能改变原先输入内容的一些语义（作者们为此使用了一个名为constrast set的数据集）。作者检验稳健性时使用的两个数据集分别是BoolQ和IMDB。
- 公平性：在本篇论文中作者们考虑了两种公平性，分别是反事实公平性和性能差距。反事实公平性是指将原本的输入文本中的人物的种族和性别等作一个变化，看看模型的表现是不是不一样；性能差距是指会评价模型对不同类型人种对应输入组的输出区别。
- 偏见和刻板印象：判定模型所生成的输出是否过度偏向于某一个社会群体。首先，判定模型生成的结果会不会过度消除或偏袒某一个社会群体；接着，判定模型是否有刻板印象。
- 有毒性：为了避免模型生成有毒的输出，本篇论文的作者将模型的输出放入Perspective API中观察效果。
- 效率：本篇论文的作者通过模型训练的耗电量（千瓦时）和碳排放来计算模型训练的效率，这个指标的计算方式较为粗糙。
参与比较的模型：参与比较的模型包括Anthropic LM（窗口很大），T5，GPT-3 davinci，清华大学的GLM和俄罗斯的YaLM等。
模型比较结果：
- 模型的精度比较：从精度上看，最强大的模型是Instruct Davinci v2（175B），其次是微软和NVIDIA共同制造的TNLG（530B），排名第三的是Anthropic的LM模型（只有52B），然后是开源的OPT模型（175B）。
- 模型的校准性比较：InstructGPT ada v1表现最好，尽管其大小只有350M左右。
模型大小与精度的关系：一般来说，模型越大所产生的精度越高。