笔记-《A Survey of Large Language Models》- 8 总结与未来方向

  • 8 总结与未来方向
    • 在这篇综述中,我们回顾了 LLM 的最新进展,并介绍了理解和利用 LLM 的关键概念、发现和技术。我们重点关注大模型(即大小超过 100 亿的模型) ,并未考虑与早期 PLM(例如 BERT 和 GPT-2)的相关内容,因为它们已经在现有文献中得到了很好的综述。
    • 具体来说,我们的综述讨论了 LLM 的四个重要方面,即预训练、适配微调、应用和评估。针对每个方面,我们重点介绍了对 LLM 成功至关重要的技术或发现。
    • 此外,我们还总结了开发 LLM 的可用资源,并讨论了实现 LLM 的重要技术以便复现 LLM。
    • 这篇综述试图涵盖关于LLM 的最新文献,并为研究人员和工程师提供一份有关这个主题的优质参考资料。
    • 接下来, 我们总结了本文的讨论, 并在以下方面介绍了 LLM 的挑战和未来方向。
      • 理论与原理
      • 模型架构
      • 模型训练
      • 模型应用
      • 安全与对齐
      • 应用与生态
    • 理论与原理:
      • 揭示建立 LLM 能力基础的基本原则或要素
      • 扩展似乎在提高 LLM 的能力方面起着重要作用
      • 已有工作显示,当语言模型的参数增加到某个临界规模(例如 100 亿)时,会以一种意想不到的方式(突然性能飞跃) 涌现出一些能力 [32, 47],通常包括 ICL、指令遵循和逐步推理。
      • 这些涌现能力既令人着迷又令人困惑:LLM 何时和如何获得它们尚不清楚。
      • 然而,更多能理解、描述和解释 LLM 的能力或行为的正式理论和原理仍然缺失。
      • 由于涌现能力与自然界的相变具有十分相似的类比关系 [47, 58],跨学科理论或原则(例如,LLM 是否可以被视为某种复杂系统)可能对解释和理解LLM 的行为有用。
    • 模型架构:
      • 堆叠的多头自注意力层组成的 Transformer,由于其可扩展性和有效性,已成为构建 LLM 的基本架构。
      • 已有方法已经提出了各种策略来提高该架构的性能,如神经网络配置和可扩展的并行训练(请参阅第 4.2.2节的讨论) 。
      • 为了提高模型容量(例如多轮对话能力) ,现有的 LLM 通常维持一个较长的上下文窗口,例如 GPT-4-32k 的上下文长度达到了 32,768 个词。
      • 因此,减少标准自注意力机制所带来的时间复杂度(原始为二次代价)是一个实际应用时重要的考虑因素。
      • 研究如何构建 LLM 中更高效的 Transformer 变体十分重要 [450],例如 GPT-3 中已经使用了稀疏注意力 [55]。
      • 。此外, 灾难性遗忘一直是神经网络的长期挑战,其对 LLM 也有负面影响。
      • 在使用新数据微调 LLM 时,原先学到的知识可能会受到损害,例如根据某些特定任务对 LLM 进行微调将影响LLM 的通用能力。
      • 当 LLM 与人类价值观保持一致时(称为对齐税 [61, 222]) ,也会出现类似情况。
      • 因此,有必要考虑将现有架构扩展到更具灵活性的机制或模块,以有效支持数据更新和任务专用化。
    • 模型训练:
      • 在实践中,由于巨大的计算消耗和对数据质量和训练技巧的敏感性 [69, 97],预训练功能强大的 LLM 非常困难。因此,开发更系统、经济的预训练方法以优化 LLM 变得尤为重要,同时考虑到模型有效性、效率优化和训练稳定性等因素。我们应该开发更多的模型检查或性能诊断方法(例如 GPT-4 中的可预测扩展 [45]) , 以便在训练过程中及早发现异常问题。
      • 此外,还需要更灵活的硬件支持或资源调度机制, 以便更好地组织和利用计算集群中的资源。
      • 由于从头开始预训练 LLM 的成本非常高, 因此设计适合的机制在公开可用的模型检查点基础上不断预训练或微调 LLM 是非常重要的 (例如 LLaMA [57] 和 Flan-T5 [64]) 。 为此, 需要解决许多技术问题,例如灾难性遗忘和任务专门化。
      • 然而,迄今为止,仍缺乏具有完整预处理和训练日志的 LLM 开源模型检查点 (例如准备预训练数据的脚本) 以进行复现。
      • 此外,开发更多有效引导模型能力的改进微调策略也很重要。
    • 模型应用:
      • 由于在实际应用中微调的成本非常高,提示已成为使用 LLM 的主要方法。
      • 通过将任务描述和示例合并到提示中,ICL(一种特殊形式的提示)赋予了 LLM 在新任务上表现良好的能力,甚至在某些情况下胜过全数据微调模型。
      • 此外,为了提高复杂推理能力,已有工作提出了先进的提示技术,例如 CoT 策略,它将中间推理步骤包含在提示中。
      • 然而, 现有的提示方法仍然存在以下几个不足之处。
      • 首先, 提示设计时需要大量人力。自动生成有效提示以解决各种任务将非常有用。
      • 其次,一些复杂任务(例如形式证明和数值计算)需要特定的知识或逻辑规则,这些规则可能无法用自然语言很好地表达或通过示例演示。因此, 开发更具信息量和灵活性的任务格式化方法以进行提示非常重要31。
      • 第三, 现有的提示策略主要关注单轮性能。开发交互式提示机制(例如通过自然语言对话)来解决复杂任务是有用的,其效果已经被 ChatGPT 证明。
    • 安全与对齐:
      • 尽管具有强大的能力,LLM 与小型语言模型在安全方面面临类似的挑战。例如 LLM 倾向于产生幻觉 [372], 这些文本看似合理,但可能在事实上是错误的。
      • LLM 可能被有意的指令激发以产生有害的、有偏见的或有毒的文本以用于恶意系统,从而导致潜在的滥用风险 [55, 61]。
      • 为了详细讨论 LLM 的安全问题(例如隐私、过度依赖、虚假信息和影响操作) , 读者可以参考 GPT-3/4 技术报告 [45, 55]。
      • 作为避免这些问题的主要方法,可通过将人类纳入训练循环来开发良好对齐的 LLM, 并使用 RLHF[61, 113]。
      • 为了提高模型安全性,在 RLHF 过程中包含安全相关的提示也非常重要, 正如 GPT-4 所示 [45]。
      • 然而,RLHF 严重依赖专业标注者的高质量人类反馈数据,这使得它在实践中难以适当实施。
      • 。因此,有必要改进 RLHF 框架以减少人类标注者的工作量,并寻求更高效的、具有保证数据质量的标注方法,例如 LLM 可以用于辅助标注工作。
      • 最近,红队方法 [85, 224] 已经被采用来提高 LLM 的模型安全性, 该方法利用收集到的对抗性提示来优化 LLM(即避免红队攻击) 。
      • 此外,通过聊天获取人类反馈并直接将其用于自我改进的适当学习机制也具有重要意义。
    • 应用与生态:
      • 作为一个显著的进步,ChatGPT 可能已经改变了人类获取信息的方式, 这已在 “New Bing” 的发布中得到实现。在不远的将来,可以预见到 LLM 将对信息检索技术产生重大影响, 包括搜索引擎和推荐系统。
      • 此外, 智能信息助手的开发和使用将随着 LLM 的技术升级得到高度推广。
      • 从更广泛的范围来看, 这波技术创新浪潮将产生一个以 LLM 为支持的应用生态系统(例如 ChatGPT 对插件的支持) ,这与人类生活息息相关。
      • 最后,LLM 的兴起为人工通用智能(AGI) 的探索提供了启示。有望开发出比以往更智能的系统(可能具有多模态信号) 。然而,在这一发展过程中,AI 安全应成为主要关注之一,即 AI 对人类产生好处而非坏处 [39]。
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

L_serein

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值