大模型综述

《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》论文阅读

模型架构

两种架构:

  • encoder-decoder架构/encoder架构:T5/BERT
  • decoder架构:GPT4 在这里插入图片描述
特点LLMs
encoder-decoder
or
encoder-only
BERT-style训练:掩码语言模型
类型:判别式
预训练任务:预测掩码词ELMo, BERT,RoBERTa,
DistilBERT,BioBERT,XLM,
Xlnet,ALBERT,ELECTRA,
T5,GLM,XLM-E,ST-MoE,AlexaTM
decoder-only
GPT-style训练:自回归语言模型
类型:生成式
预训练任务:预测下一个词GPT-3, OPT,PaLM,
BLOOM, MT-NLG,
GLaM,Gopher, chinchilla,
LaMDA, GPT-J, LLaMA,
GPT-4, BloombergGPT

BERT-style判别式模型:考虑周围语境的同时预测句子中的掩码词,让模型更加深入地理解单词与上下文之间的关系。eg:BERT、RoBERTa和T5。

GPT-style生成式模型:通过给定的前一个词的序列预测下一个词。 eg:GPT-3、OPT、PaLM和BLOOM

实用数据指南

数据对模型有效性的影响始于预训练阶段,并持续到训练和推理阶段。

备注

  1. 在面对分布外数据的下游任务中,LLM比微调模型具有更好的泛化能力,例如对抗性示例和域转换。
  2. 当处理有限的带注释数据时,LLM比微调模型更可取,当有大量带注释数据可用时,两者都是合理的选择,具体取决于特定的任务要求。
  3. 建议选择在与下游任务类似的数据字段上预先训练的模型。

预训练数据

预训练数据在大型语言模型的开发中起着关键作用。作为LLM卓越能力的基础,预训练数据的质量、数量和多样性显著影响LLM的性能。常用的预训练数据由无数的文本来源组成,包括书籍、文章和网站。这些数据经过精心整理,以确保全面代表人类知识、语言细微差别和文化观点。预训练数据的重要性在于,它能够为语言模型提供对单词知识、语法、句法和语义的丰富理解,以及识别上下文和生成连贯响应的能力。预训练数据的多样性在塑造模型的性能方面也起着至关重要的作用,LLM的选择高度依赖于预训练数据的组成部分。

简而言之,在为下游任务选择LLM时,建议选择在类似数据领域上预训练的模型。

微调数据

在为下游任务部署模型时,有必要根据注释数据的可用性考虑三种主要场景:零、少量和大量。

零注释数据:在没有注释数据的情况下,在零样本学习中使用LLM被证明是最合适的方法。LLM已被证明优于以前的零样本学习。此外,由于语言模型参数保持不变,缺少参数更新过程确保避免了灾难性遗忘。

少注释数据:将少量的样例直接纳入LLM的输入提示中,称为In -context learning,这些样例可以有效地引导LLM泛化到任务中。据报道,单次和少次的性能都有显著的提高,甚至可以与SOTA微调开域模型的性能相匹配。然而,由于微调模型的规模较小和过拟合,性能可能不如使用LLM。

大量注释数据:对于特定任务有大量的注释数据可用,可以考虑微调模型和llm。在大多数情况下,微调模型可以很好地拟合数据。在此场景中,使用微调模型或LLM之间的选择是特定于任务的,并且还取决于许多因素,包括期望的性能、计算资源和部署约束。考虑使用大量带注释的数据进行微调的模型,让LLM在数据可用性方面更加通用。

测试/用户数据

当为下游任务部署LLM时,经常面临来自测试/用户数据和训练数据之间分布差异的挑战。这些差异可能包括领域转移、分布外变化(out-of-distribution,OOD),甚至是对抗性例子。这些挑战严重阻碍了微调模式在实际应用中的有效性。它们适合于特定的分布,并且泛化到OOD数据的能力很差。然而,LLM在面对OOD情况时表现相当好,因为它们没有明确的拟合过程,基于人类反馈的强化学习(RLHF)方法显著增强了LLM的泛化能力。

NLP任务的实用指南

详细讨论LLM在各种下游NLP任务中的用例和非用例以及相应的模型能力。

传统的NLU任务

传统的NLU任务是NLP中的一些基本任务,包括文本分类、命名实体识别(named entity recognition,NER)、蕴涵预测(entailment prediction,)等。它们中的许多被设计为充当大型人工智能系统的中间步骤,例如用于知识图构建的NER。

在这里插入图片描述
应用程序选择llm或微调模型2的决策流。决策流帮助用户评估他们手头的下游NLP应用程序是否满足特定条件,并根据该评估确定llm或微调模型是否最适合他们的应用程序。在图中的决策过程中,Y表示满足条件,N表示不满足条件。黄圈代表最后一个条件的Y,意味着没有模型能很好地适用于这种应用。

备注:在传统的NLU任务中,微调模型通常是比LLM更好的选择,但LLM可以提供帮助,但需要较强的泛化能力。

  • 不适⽤于LLM的任务:⽂本分类,信息检索,命名实体识别,依赖解析
  • 适⽤于LLM的任务:杂项⽂本分类

生成任务

自然语言生成主要包括两大类任务,其目标是创建连贯的、有意义的和上下文适当的符号序列。第一种类型侧重于将输入文本转换为新的符号序列,例如段落摘要和机器翻译等任务。第二种是“开放式”生成,旨在从零开始生成文本或符号,以准确匹配输入描述,如撰写电子邮件、撰写新闻文章、创作虚构故事和编写代码。

备注:由于LLM强大的生成能力和创造力,在大多数生成任务中表现出优势。

  • 适用于LLM的任务:总结任务,机器翻译和开放式生成
  • 不适用LLM的任务:资源丰富的翻译任务和资源极少的翻译任务

知识密集型任务

知识密集型任务知识密集型NLP任务是指高度依赖背景知识、特定领域专业知识或一般现实世界知识的一类任务。这些任务超越了简单的模式识别或语法分析。它们高度依赖于记忆和对现实世界中特定实体、事件和常识的正确运用。 备注

  1. 因为LLM拥有丰富的现实世界知识,所以擅长擅长知识密集型任务
  2. 当知识需求与所学知识不匹配时,或者当他们面临只需要上下文知识的任务时,llm会遇到困难,在这种情况下,微调模型可以像llm一样有效。
  • 适用于LLM的任务:闭卷式问答任务、大规模多任务语言理解(massive multitask language understanding,MMLU)
  • 不适用LLM的任务:其他任务需要的知识与法学硕士所学的不同。所需的知识并不是法学硕士所学到的关于现实世界的知识。在这些任务中,LLM并没有明显的优势:机器阅读理解

与规模有关的能力

LLM的规模(例如参数、训练计算等)可以极大地增强预训练语言模型的能力。随着模型的扩展,模型通常在一系列任务中变得更有能力。在某些指标中,性能与模型规模呈幂律关系。

备注

  1. 随着模型尺度的指数级增长,LLM的推理能力变得特别强,比如算术推理和常识推理。
  2. 随着LLM规模的扩大,涌现能力(Emergent abilities)成为意外发现的能力,比如文字处理能力和逻辑能力。
  3. 在许多情况下,由于对大型语言模型的能力如何随着规模的扩大而变化的理解有限,性能并没有随着规模的扩大而稳步提高。
在推理方面的用例

推理,包括理解信息、推断和做决定,是人类智能的基本方面之一,许多现有的推理任务可以分为常识推理和算术推理。

常识推理:常识推理不仅要求法学硕士记住事实知识,还要求法学硕士对事实进行几个推理步骤。随着模型尺寸的增大,常识推理能力逐渐增强。

算术推理:LLM的算术推理能力很大程度上得益于模型大小的缩放。在没有外部工具干预的情况下,法学硕士在进行基本计算时偶尔会出现错误,尽管思维链提示(chain-of-thought, CoT) prompting可以显著提高LLM的计算能力。

新兴能力的可用案例

模型的缩放也赋予了模型一些前所未有的、超越幂律规则的神奇能力。这些能力被称为“涌现能力”。LLM的涌现能力是指在小规模模型中不存在但在大规模模型中存在的能力。这意味着这种能力不能通过较小规模模型的性能改进来预测,一旦规模超过一定范围,模型就会在某些任务上突然获得良好的性能。突发能力通常是不可预测和令人惊讶的,导致任务随机出现或出乎意料。

不可用案例和理解

在大多数情况下,较大的模型会带来更好的性能。在某些任务上,随着llm大小的增加,性能开始下降。 U形现象:随着LLM规模的增加,它们在某些任务上的表现最初有所提高,但随后开始下降,最终再次提高。从某种意义上讲,U型现象表明小规模模型和大规模模型采用了不同的内部机制进行预测,从这个角度上分析,U型现象可能是由于模型的新兴能力导致的逆向转变。

其他任务

备注

  1. 在与LLM预训练目标和数据相差较大的任务中微调模型或指定模在模仿人类、数据标注和生成方面表现出色。它们还可以用于NLP任务的质量评估,并具有可解释性等附加功能型仍然有其空间。
  2. LLM在模仿人类、数据标注和生成方面表现出色。它们还可以用于NLP任务的质量评估,并具有可解释性等附加功能。
不适用LLM的任务

回归任务通常涉及预测连续值而不是离散标签,LLM表现欠佳的一个主要原因是语言建模目标和回归任务目标之间的内在差异。LLM旨在预测序列中的下一个单词或生成连贯的文本,其预训练侧重于捕获语言模式和关系,其内部表示可能不太适合建模连续数值输出。

适用LLM的任务

LLM非常擅长模仿人类,扮演聊天机器人的角色,执行各种各样的任务。LLM可以充当注释工具,也可以充当数据生成器。LLM可以用于某些自然语言生成任务的质量评估,例如总结和翻译。此外,LLM的CoT推理能力可以展示LLM如何达到预测结果,这是一个好的实例级别的解释,同时也提高了性能。

真实世界的任务

模型在现实世界中面临着三个方面的挑战:

嘈杂的/非结构化输入:,真实世界的输入数据可能是混乱的,包含错别字、口语和混合语言。

未被学术界正式确定的任务:现实世界的场景中,学术任务往往定义不清,而且比学术环境中的任务多样化得多。用户经常呈现的查询或请求不能整齐地归入预定义的类别,有时单个查询中包含多个任务。

遵循用户的指示:模型需要理解用户意图,并提供与这些意图一致的输出。

从本质上讲,现实世界中的这些挑战来自于用户的请求明显偏离了为特定任务设计的任何NLP数据集的分布。

备注:与微调模型相比,LLM更适合处理现实场景。然而,评估模型在现实世界中的有效性仍然是一个悬而未决的问题。

处理真实场景需要处理歧义、理解上下文和处理嘈杂的输入。与微调模型相比,法学硕士更适合于此,因为他们已经在包含各种写作风格、语言和领域的不同数据集上进行了训练。LLM表现出强大的生成开放域响应的能力,使其非常适合这些场景。

另一方面,微调模型通常针对特定的、定义良好的任务进行定制,可能难以适应新的或意外的用户请求。它们严重依赖于明确的目标和格式良好的训练数据,这些数据指定了模型应该学习遵循的指令类型。微调模型可能会与噪声输入作斗争,因为它们对特定分布和结构化数据的关注范围较窄。通常需要一个额外的系统作为微调模型的助手来处理非结构化的上下文,确定可能的意图,并相应地改进模型响应。

指令调优和人类对齐调优等机制进一步提高了LLM更好地理解和遵循用户指令的能力。这些方法提高了模型生成有益的、无害的和诚实的响应的能力,同时保持连贯性和一致性。

当涉及到现实场景时,主要问题之一是如何评估模型是好还是坏。没有任何形式化的任务或度量,模型有效性的评估只能依赖于人类标注者的反馈。

其他考虑因素

尽管LLM适用于各种下游任务,但还有一些其他因素需要考虑,例如效率和可信度。对效率的讨论包括LLM的训练成本、推理延迟和参数高效调优策略。同时,对可信度的检查包括稳健性和校准,公平性和偏差,潜在的虚假相关性以及LLM中的安全挑战。

备注

  1. 对于那些对成本敏感或者对延迟有严格要求的模型。参数高效调优是模型部署和交付的可行选项。
  2. 零样本学习不能从特定任务的数据中学习捷径,但是LLMs仍然有这个问题
  3. 与LLM相关的安全问题应给予高度重视,因为llm的潜在有害或有偏见的输出,以及幻觉可能导致严重后果。

效率

在实际部署中,性能、成本和延迟都是重要的考虑因素,而不仅仅是模型的性能,必须在实践中平衡效率和有效性。

  • 成本: 对于无法承担如此大成本的用户,如小型初创公司、个人用户等,小型、微调的模型是更好更合理的选择。

  • 延迟: 推理时间是衡量延迟的常用指标,它高度依赖于模型大小、体系结构和令牌大小。在不能接受高延迟的场景中,大型llm可能不合适。

  • 参数高效调优:参数有效调谐(PET)是一种有效的技术,可以在冻结预训练llm的大部分参数的同时,对模型参数(或额外参数)的一小部分进行调谐。PEFT的主要目标是在保持原始模型性能的同时大幅降低计算和存储成本。PET常用的技术有LoRA、Prefix Tuning、P-Tuning。

可信度

鉴于LLM在涉及医疗保健、金融和法律等敏感领域,确保他们值得信赖并能够产生可靠的产出至关重要。

-鲁棒性和校准性:LLM的准确性和鲁棒性具有很强的相关性,对场景具有较高精度的模型也具有较好的鲁棒性。然而,在对额外的应用程序特定任务数据进行调优后,zero-shot的鲁棒性变得更差。这可能是由于过拟合,由于模型的极高复杂性和来自下游任务的有限训练样本,导致了较差的泛化能力。类似地,已经观察到,由于过度参数化,对模型进行微调可能导致严重的误校准。因此,当鲁棒性和校准是关键考虑因素时,微调模型可能不是最佳选择。

-公平性和偏差:LLM已被证明表现出不同的待遇和影响,使社会偏见永久化,并可能导致歧视。

-虚假偏差:捷径学习问题在预训练和微调范式下的各种自然语言理解任务中都存在,模型高度依赖微调数据中输入和标签之间的虚假相关性进行预测。相比之下,LLM并没有直接在微调数据集上进行训练,这使得它们不太可能学习到微调数据集中存在的快捷特征,从而增强了模型的泛化能力。然而,LLM并不是绝对正确的,在上下文学习过程中可能会表现出一些快捷学习,例如,GPT-3在文本分类和信息提取任务上的few-shot学习中,LLMs偏爱从预训练语料库中普遍存在的答案,这种位置偏见可以通过选择适当的提示来减轻。虽然LLM显著减少了在微调模型中普遍存在的快捷学习问题,但它们仍然存在一些快捷学习问题,在下游应用程序中部署它们时应该谨慎对待。

安全性挑战

LLM在推理、知识保留和编码等许多领域都表现出了极强的能力。随着它们变得越来越强大,越来越像人类,它们对人们的观点和行为产生重大影响的潜力也在增长。

-幻觉:LLM可能产生“幻觉”,或产生荒谬或不真实的内容,这可能对各种应用中信息的质量和可靠性产生重大的负面影响。为了缓解这些问题,从人类反馈中强化学习(RLHF)被广泛使用,LLM本身也被集成到回路中。

-有害的内容:由于法学硕士生成的文本具有高连贯性、高质量和高可信度,因此法学硕士产生的有害内容可能造成重大伤害,包括仇恨言论、歧视、煽动暴力、虚假叙述,甚至社会工程攻击。

-隐私:LLM可能面临严重的安全问题,用户隐私问题就是一个例子。

结论和未来挑战

大型语言模型的最新进展已经彻底改变了自然语言处理领域。有效地使用LLM需要了解它们的功能,以及各种NLP任务的限制。本文为下游NLP任务提供了一个实用的指导,首先讨论了gpt风格和bert风格架构等突出模型以及影响其性能的因素。然后,探索将LLM用于下游任务,包括知识密集型任务,NLU和NLG任务,以及提供成功和限制的具体示例。

-真实世界“数据集”上评估

-模型对齐:确保日益强大和自主的模式与人类价值观和优先事项保持一致至关重要。

-安全对齐:需要具体的研究来保证先进人工智能的安全发展。这包括用于可解释性、可伸缩的监督和治理以及模型属性的正式验证的技术。安全不应仅仅被视为模型构建过程的附加部分,而应被视为不可分割的一部分。

-规模扩大下的性能预测:很难预测随着模型大小和复杂性的急剧增加,模型性能会发生怎样的变化。开发方法来预测模型在扩展后的性能,或者随着新架构的开发,将允许更有效地使用资源并加速进度。

  • 30
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值