笔记-《A Survey of Large Language Models》- 7 能力评测

最新推荐文章于 2024-10-27 16:50:16 发布

L_serein

最新推荐文章于 2024-10-27 16:50:16 发布

阅读量823

点赞数 20

分类专栏：玩转LLM 文章标签：笔记语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L_serein/article/details/137054059

版权

玩转LLM 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

7 能力评测
- 为了检验 LLM 的有效性和优越性, 已有研究采用了大量的任务和基准数据集来进行实证评估和分析。
  - 首先,我们会介绍LLM 在语言生成和语言理解方面的三种基本评估任务。
  - 然后会介绍 LLM 在几种更复杂的设定或目标下的高级任务。
  - 最后,会讨论现有的基准和实证分析。
- 7.1 基础评测任务
  - 在本部分中,我们主要关注 LLM 的三种评估任务,即语言生成、知识利用和复杂推理。
  - 7.1.1 语言生成
    - 根据任务定义,现有语言生成的任务主要可以分为语言建模、条件文本生成和代码合成任务。
      - 需要注意的是,代码合成不是典型的自然语言处理任务,但可以直接地用(经过代码数据训练的)LLM 以类似自然语言文本生成的方法解决,因此也纳入讨论范围。
    - 语言建模:
      - 语言建模是 LLM 的基本能力,旨在基于前一个token 预测下一个 token [15],主要关注基本的语言理解和生成能力。
      - 典型的语言建模数据集包括 Penn Treebank [297]、WikiText-103 [298] 和 Pile [130]
        其中困惑度 (perplexity) 指标通常用于评估零样本情况下模型的性能。
      - ,LLM 在这些评估数据集上相较于之前效果最好的方法带来了实质性的性能提升。
      - 为了更好地测试文本的长程依赖的建模能力,LAMBADA 数据集 [167] 要求 LLM 基于一段上下文来预测句子的最后一个单词。然后使用预测的最后一个单词的准确性和困惑度来评估 LLM 性能。
      - 正如现有工作所示, 语言建模任务的性能通常遵循扩展法则 [30], 这意味着提升语言模型(LM)的参数量将提高模型的准确性并降低困惑度。
    - 条件文本生成:
      - 作为语言生成中的一个重要话题,条件文本生成 [48] 旨在基于给定的条件生成满足特定任务需求的文本, 通常包括机器翻译 [366]、文本摘要 [367] 和问答系统 [368] 等。
      - 为了衡量生成文本的质量, 通常使用自动化指标 (如准确率、BLEU [369] 和 ROUGE [370])和人类评分来评估性能。
      - 现有的条件文本生成任务,能否很好地评估和反映 LLM 的能力。
        考虑到这个问题, 研究人员试图通过收集目前无法解决的任务(即 LLM 无法取得良好表现的任务)或创建更具挑战性的任务(例如超长文本生成 [371])来制定新的评估基准, 例如 BIG-bench Hard [313]。
        此外,最近的研究还发现自动化指标可能会低估 LLM 的生成质量。在 OpenDialKG [310] 中,ChatGPT 在 BLEU 和 ROUGE-L 指标上表现不如微调的 GPT-2,但在人类评分中获得了更多的好评
        需要更多的努力来开发更符合人类偏好的新指标。
    - 代码合成:
      - 除了生成高质量的自然语言外,现有的 LLM 还表现出强大的生成形式语言的能力,尤其是满足特定条件的计算机程序(即代码) ,这种能力被称为代码合成
      - 。与自然语言生成不同,由于生成的代码可以直接用相应的编译器或解释器执行,现有的工作主要通过计算测试用例的通过率(即 pass@k)来评估 LLM 生成的代码的质量28。
      - 最近, 有工作提出了几个专注于功能正确性的代码基准,用来评估LLM 的代码合成能力,例如 APPS [315]、HumanEval [78] 和 MBPP [152]。
      - 通常,它们由各种编程问题组成,包含题目描述和用于检查正确性的测试用例。
      - 提高代码合成能力的关键在于用代码数据微调(或预训练)LLM,这可以有效地使LLM 适配代码合成任务
      - 此外,现有的工作提出了新的代码生成策略,例如采样多个候选解 [152] 和由规划指导的解码 [374],相当于模仿程序员修复错误和代码规划的过程。
      - 令人印象深刻的是, LLM 最近在程序竞赛平台 Codeforces 上取得了所有选手中前 28% 的排名, 与人类表现相当
      - 此外, 已发布的 GitHub Copilot 可在编程 IDE (如 Visual Studio 和JetBrains IDE)中辅助编程,支持包括 Python、JavaScript 和 Java 在内的多种语言。
      - 。ACM 通讯中的一篇观点文章“The End of Programming” [375] 讨论了 AI 编程在计算机科学领域的影响,强调了一个重要的转变,即,将高度适配微调的LLM 作为新的计算原子单位。
    - 主要问题:
      - 虽然 LLM 在生成类似于人类的文本已经取得了出色的表现,但它们容易受到以下两个语言生成方面的问题影响。
        可控生成
        专业化生成
      - • 可控生成:
        LLM 生成给定条件下文本的主流方法,是使用自然语言指令或提示。这种机制虽然很简单,但是在对模型生成的输出进行细粒度或结构化的约束方面,仍面临着重大挑战。
        对生成文本施加复杂的结构约束时,LLM 可以很好地处理局部关系(例如相邻句子之间的交互) ,但可能难以解决全局关系(即长程相关性) 。
        例如, 要生成一个由多个段落组成的复杂长篇文章,仍然很难直接在全局上保证指定的文本结构(例如概念的顺序和逻辑流) 。
        
        对于需要遵循结构化规则或语法的生成任务,例如代码合成, 则会更加具有挑战性。
        
        为了解决这个问题, 一种有潜力的解决方案是从 LLM 一次性生成(即直接生成目标输出)扩展到迭代提示。这模拟了人类写作过程,将语言生成分解为多个步骤,例如规划、起草、重写和编辑
        迭代提示可以诱导出相关的知识,从而在子任务中达到更好的性能
        
        CoT 提示用到的想法是,可以将复杂任务分解为多步的推理链条。
        此外,对于实际的部署而言,对生成文本的安全控制极其重要。研究表明 LLM 可能会生成包含敏感信息或冒犯性表达的文本
        虽然 RLHF 算法 [61] 可以在一定程度上缓解这个问题,但它仍然依赖于相当数量的人工标注数据来微调 LLM, 且缺乏客观的优化目标。
      - • 专业化生成:
        尽管 LLM 已经学习到了一般的语言模式, 且可以以此生成连贯的文本,但在处理专业的领域或任务时, 它们的生成能力仍然可能受到限制。
        例如,一个已经在一般类型的网络文章上训练的 LM,在生成一个涉及许多医学术语和方法的医学报告时仍可能面临挑战。
        直观上,领域知识对于模型的专业化至关重要。然而,将这种专业知识注入到LLM 中并不容易。
        
        当训练 LLM 展现特定的能力, 以使模型在某些领域获得出色的表现时,它们可能会在另外一些领域遇到困难。
        这种问题与神经网络训练中的灾难性遗忘 [379, 380] 有关,它指的是整合新旧知识时发生冲突的现象。
        类似的情况也出现在 LLM 的人类对齐微调中,要将模型向人类的价值观和需求对齐,必须要支付“对齐税” [61](例如可能在 ICL 能力上产生损失) 。
  - 7.1.2 知识利用
    - 知识利用是一种智能系统基于事实证据的支撑,完成知识密集型任务的重要能力(例如常识问题回答和事实补全) 。
    - 具体而言, 它要求 LLM 适当地利用来自预训练语料库的丰富事实知识, 或在必要的时候检索外部数据。
    - 特别地, 问答和知识补全已经成为评估这一能力的两种常用任务。
    - 根据测试任务 (问答或知识补全)和评估设定(有或没有外部资源) ,我们将现有的知识利用任务分为三种类型
      - 闭卷问答
      - 开卷问答
      - 知识补全
    - 闭卷问答:
      - 闭卷问答任务 [381] 测试 LLM 从预训练语料库中习得的事实知识。
        LLM 只能基于给定的上下文回答问题, 而不能使用外部资源。
      - 为了评估这一能力,可以利用几个数据集,包括 Natural Questions [318]、Web Questions [321] 和TriviaQA [322]。其中准确性指标被广泛采用。
      - LLM 在闭卷问答任务上的性能也显示出扩展法则的模式,包括模型大小和数据大小方面的扩展法则:增加参数和训练 token 数量可以增加 LLM 的容量,并帮助它们从预训练数据中学习(或记忆)更多的知识 [56]。
    - 开卷问答:
      - 与闭卷问答不同, 在开卷问答任务中, LLM 可以从外部知识库或文档集合中提取有用的证据, 然后基于提取的证据回答问题
      - 典型的开卷问答数据集 (例如, Natural Questions [318]、OpenBookQA [330] 和 SQuAD [333])与闭卷问答数据集有所重叠,但是前者包含外部数据源,例如维基百科。在开卷问答任务中,广泛使用的评估指标是准确性和 F1-score。
      - 为了从外部资源中选出有关的知识,LLM 通常与一个文本检索器(甚至是一个搜索引擎)配对,该文本检索器与 LLM 独立或联合训练 [72, 382, 386]。在评测的过程中,现有研究主要关注于测试 LLM 如何利用提取到的知识来回答问题。
      - 研究表明,检索到的证据可以大大提高生成答案的准确性,甚至使较小的 LLM 能够胜过 10 倍参数量的LLM [382, 386]。
      - 此外,开卷问答任务还可以评估知识信息的新旧程度。从过时的知识资源进行预训练或检索,可能导致LLM 在时间敏感的问题上生成不正确的答案
    - 知识补全:
      - 在知识补全任务中,LLM(在某种程度上)可以被视为一个知识库 [340],补全或预测知识单元(例如知识三元组)的缺失部分。这种任务可以探索和评估 LLM 从预训练数据中学习到的知识的数量和种类。
      - 现有的知识补全任务可以粗略地分为
        知识图谱补全任务(例如 FB15k-237 [336] 和WN18RR [338])
        旨在补全知识图谱中的三元组
        
        事实补全任务 (例如, WikiFact [335]) ,
        有关特定事实的句子。
      - 指令微调有助于LLM 完成知识补全任务。
    - 主要问题:
      - 尽管 LLM 在捕获和利用知识信息方面取得了重要进展,但它们存在以下两个主要问题。
        • 幻觉(Hallucination) :
        • 知识实时性:
      - • 幻觉(Hallucination) :
        在生成事实文本时,一个具有挑战性的问题是幻觉生成 [372],即,生成的信息与现有来源相冲突(内在幻觉)或无法通过现有来源验证(外在幻觉)
        本质上,LLM 似乎是 “无意识地” 在解决任务的过程中利用这些知识, 缺乏对使用内部或外部知识精准控制的能力。
        幻觉会误导 LLM 生成非预期的输出,并且在大部分时候会降低其性能,为部署LLM 到实际应用带来潜在风险。
        为了缓解这个问题,现有的工作广泛使用了对齐调整策略(如第 5.2 节中讨论的) ,这种策略依赖于在高质量的数据上对 LLM 进行微调, 或使用人类反馈对 LLM 进行微调。
        为了评估幻觉问题,已经提出了一系列幻觉检测任务,例如 TruthfulQA [320] 旨在检测模型是否会模仿人类的虚假言论。
      - • 知识实时性:
        另一个主要挑战是,对于需要使用比训练数据更新的知识的任务时,LLM 在解决这些任务时会遇到困难。
        为了解决这个问题,一个直接的方法是定期用新数据更新 LLM。然而, 微调 LLM 的成本非常昂贵的, 而且增量训练LLM 非常可能导致灾难性遗忘问题。
        因此,有必要开发高效有效的方法,将新知识融入到现有的 LLM 中,使其保持最新状态。
        现有的研究已经探索了如何利用外部知识源(例如搜索引擎)来补充 LLM,这既可以是与 LLM 一起优化的 [382], 也可以是作为一种即插即用的模块 [387]。例如, ChatGPT 使用了检索插件来访问最新的信息源 [388]。通过将提取的相关信息融入上下文 [389, 390],LLM 可以获取新的事实知识,并在相关任务上有更好的表现。
        然而,这种方法似乎仍然停留于表面层次。一些实验揭示,直接修改内在知识或将特定的知识注入 LLM 是很困难的, 这仍然是一个值得研究的研究问题
  - 7.1.3 复杂推理
    - 复杂推理是指理解和利用相关的证据或逻辑来推导结论或做出决策的能力
    - 根据推理过程中涉及的逻辑和证据类型,我们考虑将现有的评估任务分为三个主要类别
      - 知识推理
      - 符号推理
      - 数学推理
    - 知识推理:
      - 知识推理任务依赖于逻辑关系和事实知识的证据来回答给定的问题。
      - 现有的工作主要使用特定的数据集来评估相应类型的知识推理能力,例如 CSQA [276]/StrategyQA [277] 用于常识推理,ScienceQA [329] 用于科学知识推理。
      - 除了生成结果的准确性,现有的工作 [329] 还通过自动化评测(例如BLEU) 或人类评估的方法, 来评估所生成的推理过程的质量。
      - 通常,这些任务要求 LLM 根据事实知识逐步推理,直到回答给定的问题。
        为了激发逐步推理的能力,有研究提出了 CoT 提示策略 [32] 来增强 LLM 的复杂推理能力。如第 6.2 节所述,CoT 涉及到中间推理步骤,通过手动创建 [32] 或自动生成 [393] 的方式嵌入到提示中,指导 LLM 进行多步推理。这种方式大大提高了 LLM 的推理性能, 使其在几个复杂知识推理任务上取得了目前效果最好的效果
        此外,将知识推理任务转化为代码生成任务后,研究人员发现可以进一步提高 LLM 的性能 [156],特别是对于在代码上预训练的LLM。
      - 然而, 由于知识推理任务的复杂性, 在例如常识推理等任务上,当前 LLM 的性能仍然落后于人类的结果。
        作为最常见的错误之一,LLM 可能基于错误的事实知识生成不准确的中间步骤, 导致最终结果错误。
        为了解决这个问题, 现有的工作提出了特殊的解码策略和 (对多个推理路径) 集成策略, 以提高整个推理链的准确性。
      - LLM 可能难以明确推断出特定任务所需的常识知识,尽管它们可以成功地解决该任务。此外, 它进一步表明, 利用自动生成的知识可能不利于提高推理性能。
    - 符号推理30:
      - 符号推理任务主要关注于在形式化规则设定中操作符号以实现某些特定目标 [51],且这些操作和规则可能在 LLM 预训练期间从未被看到过。
      - 现有的工作 [32, 262, 280] 通常用尾字母拼接和硬币反转任务来评估 LLM,其中用于评测的数据与上下文例子有相同的推理步骤(称为领域内测试) 或更多步骤(称为领域外测试) 。
        比如一个领域外测试的例子, LLM 在上下文例子中看到的示例只有两个单词,但在测试中LLM 需要将三个或更多的单词的最后一个字母进行拼接。
      - 通常会采用生成符号的准确性来评估 LLM 在这些任务上的性能。
        因此,LLM 需要理解符号操作之间的语义关系以及它们在复杂场景中的组合。
      - 然而,在领域外测试下,由于 LLM 没有看到符号操作和规则的复杂组合(例如将上下文示例的操作数量增加一倍) ,因此难以捕捉其准确含义。
        为了解决这个问题,现有研究结合了 scratchpad [354, 395] 和 tutor [396] 策略来帮助 LLM 更好地操作符号, 生成更长和更复杂的推理过程。
        另一条研究路线利用形式化编程语言来表示符号操作和规则,这要求 LLM 生成代码并通过外部解释器执行推理过程。这种方法可以将复杂的推理过程分解为 LLM 的代码合成和解释器的程序执行,从而简化推理过程并获得更准确的结果
    - 数学推理:
      - 数学推理任务需要综合利用数学知识、逻辑和计算来解决问题或生成证明过程。
        数学问题求解
        自动定理证明
      - 数学问题求解
        对于数学问题求解任务, 常用的评估数据集包括 SVAMP [274]、 GSM8k [273] 和MATH [312] 数据集,
        其中 LLM 需要输出准确的具体数字或方程来回答数学问题。
        由于这些任务也需要多步推理, CoT 提示策略已被广泛采用来提高 LLM 的推理性能
        
        作为一种实用的策略, 持续在大规模数学语料库上预训练 LLM 可以大大提高它们在数学推理任务上的性能
        此外, 由于不同语言中的数学问题共享相同的数学逻辑,研究人员还提出了一个多语言数学问题基准测试 [289], 用于评估 LLM 的多语言数学推理能力。
      - 自动定理证明(ATP)
        要求用于推理的模型严格遵循推理逻辑和数学技能。
        为了评估在此任务上的性能,PISA [363] 和 miniF2F [364] 是两个典型的 ATP 数据集,其中证明成功率是评估指标。
        作为一种典型的方法,现有的 ATP 工作利用LLM 来辅助交互式定理证明器(interactive theorem prover,ITP, 例如 Lean、 Metamath 和 Isabelle) 进行证明搜索 [399–401]。
        ATP 研究的一个主要限制是缺乏相关的形式化语言语料库。
        为了解决这个问题,一些研究利用 LLM 将非形式化的表述转换为形式化证明以增加新数据 [157],或者生成草稿和证明草图以减少证明搜索空间 [402]。
    - 主要问题:
      - 尽管 LLM 在解决复杂推理的任务方面有所进展, 但仍存在一些限制。
        不一致性:
        数值计算:
      - • 不一致性:
        通过改进推理策略(如使用 CoT) ,LLM 可以基于逻辑和支撑性证据逐步执行推理过程,从而解决一些复杂的推理任务。尽管这种方法是有效的,但在推理过程中经常出现不一致性问题。
        具体而言,LLM 可能会在错误的推理路径下仍生成正确答案,或者在正确的推理过程之后产生错误答案 [32, 403],导致得到的答案与推理过程之间存在不一致性。
        为了缓解这个问题,现有的工作提出了通过外部工具或模型指导 LLM 的整个生成过程 [374],或者重新检查推理过程和最终答案以进行纠正 [404] 的方法。
        作为一种有前景的解决方案,最近的方法将复杂的推理任务重新形式化为代码生成任务,而生成的代码会被严格执行,从而确保了推理过程和结果之间的一致性。
        
        此外, 研究还发现, 相近输入的任务之间也可能存在不一致性,即任务描述中微小的变化可能导致模型产生不同的结果 [49, 274]。
        为了缓解这个问题, 可以集成多个推理路径来增强 LLM 的解码过程 [281]。
      - • 数值计算:
        对于复杂的推理任务,LLM 在数值计算上仍然面临困难, 特别是对于在预训练阶段很少遇到的符号, 例如大数字的算术运算 [49, 396]。
        为了解决这个问题, 一种直接的方法是在合成的算术问题上微调 LLM [405]。一系列的研究采用了这种方法,并通过特殊的训练和推理策略进一步提高数值计算性能 [395],例如使用草稿纸推演。
        此外,现有的工作还包括使用外部工具(例如计算器)来处理算术运算 [71]。
        最近,ChatGPT 提供了一个插件机制来使用外部工具 [388]。这样,LLM 需要学习如何正确地操作这些工具。为此,研究人员通过一些工具(甚至是 LLM 本身)调整了 LLM 的示例 [71, 406],或者为 ICL 修订指令和示例 [356]。然而,这些LLM 仍然依赖于(在预训练阶段)从文本上下文捕捉数学符号的语义含义,这在本质上并不是适合于数值计算的最佳方案。
- 7.2 高级能力评估
  - 除了上述基本评测任务外,LLM 还展现出一些需要特殊考虑的高级能力。在本节中,我们将讨论几种有代表性的高级能力及其相应的评测方法
    - 与人类对齐
    - 与外部环境的互动
    - 工具操作
  - 7.2.1 与人类对齐
    - 与人类对齐 (human alignment) 指的是让 LLM 能够很好地符合人类的价值和需求,这是在现实世界应用中广泛使用 LLM 的关键能力。
    - 为了评估这种能力,现有的研究考虑了多个人类对齐的标准, 例如有益性、真实性和安全性 [45, 222, 223]。
      - 对于有益性和真实性, 可以利用对抗性问答任务 (例如 TruthfulQA [320]) 来检查 LLM 在检测文本中可能的虚假性方面的能力 [45, 72]。
      - 此外,有害性也可以通过若干现有的基准测试来评估,例如CrowS-Pairs [407] 和 Winogender [408]。
    - 尽管存在基于以上数据集的自动评估,人工评估仍然是一种更直接有效的测试LLM 与人类对齐能力的方法。
    - 此外, 对于人类对齐的其他方面 (例如真实性) , 一些研究提出使用具体指令和设计标注规则来指导评价过程 [72]。
    - 此外,高质量的预训练数据可以减少对齐所需的工作量 [45]。
  - 7.2.2 与外部环境的互动
    - 除了标准评估任务外,LLM 还具有从外部环境接收反馈并根据行为指令执行操作的能力,例如生成自然语言行动计划以操纵智能体 [409, 410]。
    - 这样的能力也是在 LLM 中涌现,可以生成详细且高度切实可行的行动计划,而较小的模型(例如 GPT-2)倾向于生成较短或无意义的计划 [409]。
    - 为了测试这种能力,研究者提出了一些具身 AI 环境和评价基准
      - 。VirtualHome [411] 构建了一个 3D 模拟器,用于家务任务(例如清洁和烹饪) ,代理人可以执行 LLM 生成的自然语言行动。
      - ALFRED [412] 包括更具挑战性的任务,需要 LLM 完成组合目标。
      - BEHAVIOR [413] 侧重于在模拟环境中进行日常杂务,要求 LLM 生成复杂的解决方案,例如更改对象的内部状态。
    - 对于 LLM 生成的行动计划, 现有的工作要么采用基准测试中的常规指标 (例如生成的行动计划的可执行性和正确性) , 要么直接根据现实世界执行的成功率来评估这种能力 [409, 414]。
  - 7.2.3 工具使用
    - 在解决复杂问题时, LLM 可以在必要的情况下利用外部工具。通过封装可用工具的 API 调用,现有的工作已经考虑了各种外部工具,例如搜索引擎 [72]、计算器 [71] 和编译器 [356] 等等,以增强 LLM 在特定任务上的性能。
    - 整合第三方插件对于创建基于 LLM 的应用程序生态系统非常关键。
    - 为了检验工具使用的能力,现有的工作大多采用复杂的推理任务进行评估,例如数学问题求解(例如 GSM8k [273] 和 SVAMP [274])或知识问答(例如 TruthfulQA [320]) ,其中成功使用工具对于增强 LLM 缺乏的所需技能非常重要 (例如数值计算) 。
      - 通过这种方式,这些任务的评估性能可以反映出 LLM 在工具使用方面的能力。
    - 为了让 LLM 学会利用工具, 现有研究在上下文中添加使用工具的示例来让 LLM 学习使用方法 [356],或基于工具使用的相关数据对 LLM 进行微调 [71, 406]。
    - 总结
    - 上述三种能力对于 LLM 在实际应用中的表现具有巨大的价值:
      - 符合人类价值和偏好(与人类对齐) 、
      - 在实际场景中正确行动(与外部环境交互)
      - 扩展能力范围(工具操作)
    - 除了上述三种高级能力之外,LLM 还可能展现出一些有关特定任务(例如数据标注 [257])或学习机制(例如自我改进 [285])的其他高级能力。
- 7.3 公开基准和经验性分析
  - 将介绍现有的 LLM 评测基准和实证分析, 从总体视角对大模型的能力进行更全面的讨论。
  - 7.3.1 评测基准
    - 将介绍几个具有代表性并得到广泛使用的评测基准
      - MMLU
      - BIG-bench
      - HELM
    - MMLU [312]
      - 是一个通用评测基准,用于大规模评测LLM 的多任务知识理解能力。
      - 其涉及到的知识涵盖数学,计算机科学以及人文和社会科学等领域,并包含从基础到进阶不同难度的任务。
    - BIG-bench [355]
      - 是一个由社区协作收集的评测基准, 旨在从各个方面探究现有 LLM 的能力。
      - 包含了 204 个任务,主题包括语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等
      - 通过扩展模型尺寸,小样本设置下的 LLM 甚至可以在 65% 的 BIG-bench 任务中超过人类的平均表现 [56]
    - HELM [286]
      - 是一个综合性评测基准
      - 目前包括 16 个核心场景和 7 类指标。
      - 它建立在许多先前提出的评测基准之上, 旨在对 LLM 进行全面评估。
      - HELM 的实验结果显示, 指令微调可以在准确性、鲁棒性和公平性方面提高 LLM 的性能。
      - 此外,对于推理任务,已经在代码语料库上预训练的 LLM 表现出更优秀的性能。
  - 7.3.2 大语言模型能力的综合分析
    - 从两个主要方面简要讨论
      - 通用能力
      - 专业能力
    - 通用能力:
      - • 精通度:
        为了评估 LLM 在解决一般任务方面的精通度, 现有的工作 [421] 通常收集一组涵盖各种任务和领域的数据集,然后在小样本或零样本设置下测试 LLM 的性能。
        作为一项显著进展,GPT-4 在语言理解、常识推理和数学推理等一系列任务中超越了此前在特定数据集上训练过的方法 [45]。
        此外,它可以在为人类设计的真实考试(例如美国大学预修课程考试和研究生入学考试)中达到近似于人类的表现 [45]。
        最近,一项全面的定性分析 [40] 揭示了 GPT-4 能在各个领域的各种具有挑战性的任务中接近人类水平,例如数学、计算机视觉和编程, 并将其视为 “一个通用人工智能系统的早期版本” 。
        在这些令人鼓舞的结果之外,该分析也表明GPT-4 仍然具有严重的局限性。
        例如,GPT-4 难以校准生成结果的置信度, 并且无法验证其训练数据和自身的一致性。
        。此外,多项研究还表明,LLM 可能会误解陌生概念 [421, 422], 并且在解决与情感相关的实用任务方面 420面临挑战,表现不及特定的微调模型。
      - • 鲁棒性:
        对 LLM 的综合分析需要考虑的另一个方面是它们对噪声或扰动的稳定性,这对于实际应用尤其重要。
        为了评估 LLM 对噪声或扰动的鲁棒性,现有的工作 [423] 对输入进行对抗攻击处理(例如符号替换) ,然后根据输出结果的变化评估 LLM 的稳定性。
        但也会遇到一些新的问题,例如鲁棒性的不一致性和对提示的敏感性。
        具体来说,对于具有相同含义而表达方式不同的输入,LLM 往往会提供不同的答案,甚至与自身生成的内容相矛盾 [424]。
        这样的问题也会导致在使用不同提示评估稳定性时产生不一致的结果,使稳定性分析的评估结果本身不太可靠。
      - 专业能力:
        由于 LLM 已经在大规模语料库上进行了预训练, 它们可以从预训练数据中获取丰富的知识。因此,LLM 可以被用作特定领域的专家。
        最近的研究广泛探索了将 LLM 用于解决特定领域任务的应用,并评估了 LLM 的适配能力。通常,这些研究收集或构建特定领域的数据集,使用 ICL 来评估 LLM 的性能。
        简要讨论了三个受到研究界广泛关注的代表性领域,即医疗、教育和法律。
        • 医疗
        LLM 能够处理各种医疗保健任务
        生物信息提取 [425]
        医疗咨询 [426–428]
        报告简化 [429]
        甚至可以通过为专业医生设计的医疗执照考试 [430–432]。
        然而,LLM 可能会制造医学错误信息 [427, 429],例如错误解释医学术语并提供与医学准则不一致的建议。此外,上传患者健康信息也会引起隐私问题 [425]。
        
        • 教育
        LLM 可以在数学、物理、计算机科学等科目的标准化测试中达到学生级别的表现 [45, 433, 434],这些测试包括选择题和开放式问题。
        此外,实验表明 LLM 可以作为写作或阅读助手 [435, 436]。
        ChatGPT 可以生成在不同学科之间逻辑一致并且平衡深度和广度的答案。
        在某些计算机安全领域的课程中,利用ChatGPT 的学生表现比使用其他方法的学生的平均表现更好 (例如保留或完善 LLM 结果作为自己的答案) 。
        然而, LLM 的普及也引发了关于如何合理使用这样的智能助手的担忧 (例如如何避免作弊行为) 。
        
        • 法律
        应用 LLM 来解决各种法律任务
        法律文件分析 [437, 438]、法律判决预测 [439] 和法律文件撰写 [440]
        
        LLM 具有强大的法律解释和推理能力。
        最新的 GPT-4 模型在模拟律师考试中取得了相当于人类考生前 10% 的成绩。
        然而,LLM 在法律领域的使用也引发了关于法律挑战的担忧,包括版权问题 [442]、个人信息泄露 [443] 以及偏见和歧视 [444]。

关注

20
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

L_serein 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。