2024年年终看LLM的发展方向

enjoy编程

已于 2024-12-31 18:14:03 修改

阅读量1.2k

点赞数 14

分类专栏： NLP AI 文章标签： LLM Alignment Pretraining 大模型

于 2024-12-31 18:10:23 首次发布

本文链接：https://blog.csdn.net/penriver/article/details/144853326

版权

AI 同时被 2 个专栏收录

27 篇文章

订阅专栏

NLP

6 篇文章

订阅专栏

如今的大模型已经能够满足95%用户的需求，涵盖信息抽取、方案设计、表格生成、简单代码编写、简单问答、简单服务调用等领域，这95%的需求大多是简单任务，对模型的能力要求不高。因为大多数的用户日常并不需要模型具备复杂的逻辑推理能力。

剩下5%涉及复杂逻辑推理的需求，隐藏着AGI的技术瓶颈，代表着以o1为典型的新技术范式，但需要投入天价的算力

另外，需要清晰的认识到：大模型并不是智能本身，当下的大模型与智能之间的差距还很大，沿着大模型这条路可能根本达不到智能的彼岸，只是现阶段还没有找到比大模型更好的交通工具

本文回顾2024年LLM的发展记录及针对2025年LLM发展方向的展望。

文中观点取自互联网，包括但不限于：卢菁老师、吴恩达老师、杨立昆老师

2024年 LLM的颠覆认知的关键之年

2024年绝对是颠覆认知震撼的关键之年，以role_play、agent、多模态的热闹开场，以国产开源大模型的崛起掀起高潮，最终以o1的惊艳亮相落下帷幕。

年初奉为圭臬的观点，年末可能就沦为笑柄，详见如下：
- 角色扮演模型曾风光无限，如今付费聊天却无人问津
- 年初都觉得Agent近在咫尺，年末却发现其前路漫漫
- 原本发现文本将退位，多模态才是AGI的未来，然而O1的出现又让文本重回先锋之位
- dpo起初被认为简单好用，后来o1又让人们重新审视rl才是llm的核心技术
- 曾经觉得llm不适合复杂逻辑推理，o1却打破了这一观念
- 都追求llm更快更好，inference_scaling_law却提出想好就得慢
- 曾传言 moe是GPT4的关键，没想到竟是黑客情报误导众人
- llama一度被视为行业灯塔，如今qwen和deepseek等国产模型也绽放出耀眼光芒
- 初创公司起初看似生机勃勃，最终却不敌字节跳动等行业巨头
当下的认知保质期常常只有短短三个月，随后就可能被无情的打脸
实践出真知成为铁律，很多看似符合直觉的理念，一旦付诸实践，就会被证明并非如此，详见如下
- 在对模型进行 continue pretain操作前，人们理论当然的认为更多的pretain语料会让模型在通用和领域能力上双双提升，可实际操作后却发现：领域能力的增强往往伴随着通用能力的下降，且continue pretain 无法提升模型通用能力，所以此时工作的重心应转变为防止通用能力的丢失 ，而非一味强化领域能力
- 为增强逻辑推理能力，模型甚至会违背**”直接输出答案“**这一指令
- ”机械降神“般的行业巨头影响力不容小觑，OpenAI几乎凭借一已之力，推动整个行业接受了**”用推理时间换取模型在复杂问题上的准确性“**这一方案

2025年 LLM 发展方向

觉得2025 LLM主要的发展方向如下：

合成数据、Agent、o1是未来至关重要的三个方向，并且这三者之间存在着紧密的逻辑关联
- 合成数据是根基所在
  - 目前依赖的主要数据来源只有互联网，因此迫切需要更多、更优质的pretain/alignment数据，而合成数据有望填补这一空白，为模型的发展提供充足的养分
- o1是关键的技术手段，通过o1技术，能够赋予LLM逻辑思考的能力
- agent是追求的终极目标，AGI的最终形态必然是以agent的形式呈现，它能够与环境进行智能交互，完成各种复杂任务
更高效的小型化模型：尽管超大规模参数模型在某些任务上表现出色，但它们的训练和部署成本极高。因此，研究将集中在开发更加紧凑且高效的模型架构上，这些模型能够在保持性能的同时减少计算资源的需求。这包括但不限于模型压缩、剪枝、量化以及设计轻量级网络结构
跨模态融合
未来的大模型不仅限于处理文本数据，还将整合图像、音频等多种类型的信息，实现多模态感知与理解。通过这种方式，模型可以更好地捕捉现实世界的复杂性，并应用于如视觉问答、语音识别等领域
无限记忆与长期上下文理解
目前，许多LLMs的记忆能力有限，只能处理较短的对话或文档片段。未来的模型可能会具备“无限记忆”功能，即能够存储并访问几乎无限制的历史信息，从而支持更长周期的任务执行及复杂情境下的深度理解
持续学习与自适应能力
理想的AI系统应该能够在不改变原有结构的情况下，通过不断积累新知识而自我改进。这意味着模型需要具备强大的在线学习能力和动态适应新环境变化的能力

附录

DPO与RL的区别

在大型语言模型（LLM）的背景下，DPO（Direct Preference Optimization，直接偏好优化）和RL（Reinforcement Learning，强化学习）代表了两种不同的方法来改进模型的行为以更好地符合人类的偏好。以下是两者的主要区别：

强化学习 (RL)

复杂度：RLHF（基于人类反馈的强化学习 Reinforcement Learning from Human Feedback）通常涉及到一个较为复杂的pipeline，包括预训练、监督微调（SFT）、奖励建模以及使用如PPO（Proximal Policy Optimization）等算法进行策略优化。
模型数量：RLHF需要多个模型协同工作，例如演员模型（Actor Model）、评论家模型（Critic Model）、参考模型（Reference Model）和奖励模型（Reward Model），这增加了实现的复杂性和资源消耗。
训练过程：RLHF通过与环境互动收集数据，并根据这些数据更新模型参数。这个过程可以是On-policy（在线策略）或Off-policy（离线策略），并且它依赖于奖励信号来指导学习。

直接偏好优化 (DPO)

简化流程：相比RLHF，DPO提供了一个更简化的流程，它绕过了显式的奖励建模步骤，直接从偏好数据中学习，将强化学习的目标转化为监督学习问题。
模型精简：DPO只需要两个主要组件——一个用于生成文本的策略模型和另一个作为参考模型，减少了模型的数量和相应的计算负担。
训练效率：由于不需要额外训练奖励模型，并且可以直接利用已有的偏好数据进行优化，DPO能够更快地完成训练并减少对算力的需求。

总结来说，DPO旨在简化传统RLHF中的多阶段训练过程，降低实现难度及计算成本，同时保持甚至提高模型输出的质量和与人类偏好的一致性。然而，选择哪种方法取决于具体的任务需求、可用资源和技术目标等因素。

Inference Scaling Law

Inference Scaling Law 指的是在深度学习，特别是大型语言模型（LLMs）中，模型推理性能与模型规模、数据量、计算资源等因素之间的关系。这一规律描述了随着模型参数数量、训练数据集大小或计算能力的增加，模型在推理任务上的表现如何变化。尽管确切的关系可能会因具体任务和模型架构的不同而有所差异，但一般而言，存在以下几个关键点：

参数规模与性能

参数增长与性能提升：通常情况下，当模型参数的数量增加时，在足够多的数据和适当的训练条件下，模型的推理性能也会相应提高。这是因为更多的参数允许模型捕捉到更复杂的模式，并更好地泛化到未见过的数据。
收益递减法则：然而，这种性能提升并不是线性的。到了某个点之后，继续增加参数数量所带来的性能增益会逐渐减少，即出现了“收益递减”的现象。这意味着超过一定阈值后，大幅增加参数可能只带来边际上的改进。

数据量的影响

数据规模的重要性：除了模型参数外，训练数据的数量同样对推理性能有着重要影响。更多样化的高质量数据可以帮助模型学到更广泛的知识，从而改善其推理能力。
数据-模型匹配：理想情况下，模型参数的增长应该与可用数据量相匹配。如果数据量不足，即使拥有非常大的模型也可能导致过拟合；相反，过多的数据对于小模型来说可能是浪费，因为它无法充分利用这些信息。

计算资源的作用

计算资源的限制与优化：高效的计算资源可以加速训练过程，并支持更大规模的模型。但是，随着模型尺寸的增大，所需的计算成本也会急剧上升。因此，在实际应用中需要找到一个平衡点，以实现最佳的成本效益比。
分布式训练与硬件加速：为了应对大规模模型带来的挑战，研究人员经常采用分布式训练技术和专门设计的硬件（如GPU、TPU）来加快训练速度并降低能耗。

推理效率

推理效率考量：值得注意的是，虽然更大的模型可以在某些任务上提供更好的性能，但在部署阶段，它们往往伴随着更高的延迟和能源消耗。因此，研究社区也在积极探索各种方法来提高大模型的推理效率，例如模型压缩、剪枝、量化等技术。

总之，Inference Scaling Law 描述了一个复杂且动态的关系网，其中涉及多个相互关联的因素。理解这些关系对于指导未来的研究方向以及开发更加高效实用的AI系统至关重要。随着领域的发展，我们可能会发现新的模式和规律，进一步丰富和完善现有的认知。

MoE（Mixture of Experts，专家混合）

MoE（Mixture of Experts，专家混合）技术是一种用于大型语言模型（LLMs）和其他深度学习模型中的架构设计方法，它旨在通过并行化多个小型专家网络来提高模型的效率和性能。在MoE中，不同的输入会被路由到最擅长处理该类型数据的专家网络，而不是让所有输入都经过整个大模型的所有参数。这种方法不仅能够有效利用计算资源，还可以增强模型的能力，以应对更复杂的任务。以下是MoE技术的一些关键点：

架构特点

稀疏激活：MoE的一个核心特性是其稀疏激活机制，即并非所有的专家都在处理每个输入。相反，通常只有少数几个专家被选中参与特定输入的计算，这减少了计算负担。
门控网络（Gating Network）：决定哪个或哪些专家将处理给定输入的任务由一个称为“门”的子网络完成。门根据输入特征动态选择最适合的专家，并分配权重给它们。
专家网络（Expert Networks）：这些是MoE架构中的主要工作单元，每个专家都是一个小规模的神经网络，专注于特定类型的输入或者某些方面的任务。
容量控制：为了避免某些专家过载，系统通常会限制可以同时活跃的最大专家数量，确保负载均衡。

优势

计算效率：由于只有一部分专家为每个输入做出贡献，因此相比于完全密集连接的大模型，MoE可以在保持甚至提升性能的同时显著降低计算成本。
可扩展性：随着任务复杂度增加，可以通过添加更多专家来扩展MoE架构，而不必大幅增加单个模型的大小。
灵活性与表达力：不同专家可以学习捕捉不同类型的数据分布或模式，从而提高了模型的整体表达能力和适应性。

挑战

通信开销：当专家分布在多个设备上时，需要有效的策略来最小化跨设备间的通信延迟。
训练稳定性：由于MoE引入了更多的非确定性和潜在的不平衡问题，在训练过程中可能需要特别注意初始化、正则化等技巧以保证收敛性。
硬件兼容性：要充分发挥MoE的优势，往往需要对底层硬件进行优化，比如支持高效的分布式计算框架。

MoE技术已经在一些最先进的自然语言处理模型中得到了应用，例如Google的Switch Transformer和Microsoft的DeepSpeed库提供的MoE实现。通过巧妙地结合专家系统的理念与现代深度学习工具，MoE提供了一条通向更大、更高效模型的道路，同时也带来了新的研究课题和技术挑战。

继续预训练（Continue Pretraining）

继续预训练（Continue Pretraining）是大型语言模型（LLMs）开发中的一个重要步骤，它允许模型在已经获得的知识基础上进一步学习和改进。通过继续预训练，模型可以适应新的数据集、领域特定的信息或更复杂的任务要求。以下是继续预训练的一些关键方面：

继续预训练的目的

适应新领域：如果模型最初是在通用语料库上进行预训练的，那么继续预训练可以帮助它更好地适应特定领域或行业的文本数据，比如医学、法律或科技文献等。
更新知识：随着时间推移，世界上的信息不断变化，继续预训练可以让模型接触到最新的数据，从而保持其相关性和准确性。例如，对于新闻摘要生成模型来说，持续地用最新新闻文章进行预训练非常重要。
增强能力：通过引入更多样化的数据或者更复杂的数据结构，如多模态数据（文本+图像），继续预训练可以使模型具备更强的能力来处理多样化和高级的任务。
微调前的基础强化：有时，在对模型进行特定任务的微调之前，会先进行一轮或多轮的继续预训练以加强基础模型的能力，这样可以在后续的任务特定微调中取得更好的效果。

实施方法

选择合适的数据集：为了实现上述目的，需要精心挑选适合继续预训练的数据集。这些数据应该能够补充现有模型的知识空白，并且最好是高质量且具有代表性的。
调整超参数：根据新的目标和数据特性，可能需要调整学习率、批次大小等超参数，以确保模型能够有效地从新增加的数据中学习。
监控与评估：在整个继续预训练过程中，定期评估模型性能是非常重要的。这可以通过保留一部分验证数据来进行，确保模型不会因为过度拟合新数据而失去泛化能力。
防止灾难性遗忘：当向模型引入大量新信息时，要注意避免“灾难性遗忘”，即模型忘记以前学到的重要知识。技术上可以通过使用记忆回放、正则化项或者其他策略来缓解这一问题。

案例

一个具体的例子是Google的T5模型，它不仅在一个大规模的多语言语料库上进行了初始预训练，而且还在多个不同的下游任务数据集上进行了继续预训练，以此增强了其跨任务迁移学习的能力。

总之，继续预训练为大型语言模型提供了一种灵活的方式，使其能够在不断变化的世界中保持竞争力和适用性。随着技术的发展，我们可能会看到更多创新的方法应用于这一过程，以进一步提升模型的表现。

Alignment 数据

在大型语言模型（LLMs）的背景下，"alignment数据"是指用于确保模型行为与人类价值观、偏好和伦理标准对齐的数据。这些数据对于训练模型以生成符合社会规范、道德准则以及特定任务要求的输出至关重要。以下是关于alignment数据的一些关键点：

Alignment 数据的目的

符合人类偏好：通过使用来自真实用户的反馈，如评分、排序或直接修改建议，来调整模型的行为，使其输出更加符合人类的期望。
减少有害内容生成：帮助模型学会避免生成具有偏见、仇恨言论、虚假信息或其他可能造成伤害的内容。
提高对话质量：对于对话系统来说，alignment数据可以用来提升对话的自然度、连贯性和有用性。

Alignment 数据的类型

偏好排序数据：用户对不同模型输出进行比较并给出偏好顺序，这有助于建立奖励模型，指导模型优化其生成策略。
直接反馈数据：包括用户直接提供的评论、编辑后的文本版本等，可以直接反映出哪些方面需要改进。
标注数据：专业人员或众包工作者对文本进行详细标注，指出其中的问题所在，比如是否包含不适当的内容、逻辑错误等。
规则与指南：定义明确的行为准则或指导方针，告知模型哪些行为是可接受的，哪些是不可接受的。

收集与使用 Alignment 数据的方法

人工标注：雇佣专家或通过众包平台获取大量高质量的人工标注数据，虽然成本较高但能保证数据的质量。
互动学习：让用户在实际使用过程中提供即时反馈，这种方法能够捕捉到最新的用户需求变化，并且相对更自然。
模拟环境：创建虚拟对话场景或其他交互式环境，在受控条件下测试和评估模型的表现。
自我监督学习：利用现有大规模语料库中的隐含信号来进行一定程度上的自我校准，不过这种方式通常作为辅助手段而非主要依赖。

挑战与考虑因素

数据偏差：确保收集的数据代表广泛多样的观点和文化背景，避免引入新的偏见。
隐私保护：处理个人提供的反馈时必须严格遵守隐私法规，保障用户信息安全。
规模与效率：找到高效的方式大规模地收集和处理alignment数据，同时保持足够的代表性。
总之，alignment数据在构建安全可靠且有益于社会的语言模型中扮演着不可或缺的角色。它不仅帮助模型更好地理解和服务人类用户，还促进了AI技术负责任的发展。随着研究的进步和技术的发展，我们期待看到更多创新方法应用于这一领域，进一步增强模型与人类价值的一致性。