大模型 | 关于GPT-5 训练失败的4点思考

最新推荐文章于 2024-10-15 12:28:08 发布

沈页

最新推荐文章于 2024-10-15 12:28:08 发布

阅读量909

点赞数 10

文章标签： gpt 人工智能大模型 ai AI大模型 GPT chatgpt

本文链接：https://blog.csdn.net/Androiddddd/article/details/142203009

版权

一、近期硅谷VC和创始人观点

最近硅谷风险投资和 AI领域创始人热议话题：Scaling Law 可能正在放缓。

1、超大规模模型：AI 依然是硅谷讨论的焦点，但热度较去年有所下降，主要原因是 Scaling Law 的速度减缓（需注意训练算力需求的降低趋势）。大约在3-4周前，谷歌在训练其下一代 Gemini 模型（规模是前一代的10倍，相当于GPT-5）时遭遇了2次失败。这也为 GPT-5 的延期发布提供了解释。目前硅谷普遍认为，在大型语言模型（LLM）层面，继续扩大模型规模面临较大挑战，原因包括：

a) 采用 MOE 技术后，大模型在训练后的效果不尽如人意，未能实现收敛。
b) 数据成为制约因素，合成的数据质量远不如网络搜集的数据。

2、GPT-5 的发布延期可能性仍然存在。

二、4点思考

思考一：信息量决定 GPT-4 性能

在使用 GPT-4 过程中，我注意到它在多数情况下提供的输出几乎达到了理想的水平。所谓的“完美”并非指通用人工智能（AGI）已经达成，而是在当前的系统框架下，通过对话界面加上有限的输入信息，模型能够基于这些信息给出接近理论上的最佳回复。简单来说，很多问题没有得到满意的答案，往往是因为输入的信息不够充分。

思考二：复杂推理需要 Agent 处理

尽管大模型具有强大的上下文处理能力，这对于搜索和总结任务极为有利，但在需要进行复杂推理的场景中，我们不应期待现有技术能够处理长上下文的推理问题。现有大模型更像是快速反应系统，对于涉及多步骤推理、信息对比、路径探索和经验累积等复杂任务，我们不应寄望于大模型内部能够完全实现这些功能。快速反应系统无法获得慢速思考所需的信息，因此也无法得到慢思考的结果。COT（思维链）的应用实际上是推理过程外部化的体现，而慢思考更适合通过 Agent 架构来处理。

思考三：大模型需工具辅助计算

有些问题不适合在现有大模型架构中直接解决，比如：精确的数学计算。对人类来说，简单的计算依赖于记忆，而稍微复杂的计算，即使是心算，也涉及逻辑推理和记忆过程。比如：计算58+34时，心算其实是一种慢思考的推理过程。因此，大型模型借助工具进行计算是一个合理的做法。

思考四：智慧不仅是信息压缩

虽然“压缩即智能”，但人类最顶尖的智慧，比如：物理理论，并非单纯通过压缩信息得来。压缩是一种归纳方法，例如，让大模型归纳各种物体自由落体的视频，可能会得出轻物体下落慢、重物体下落快的结论，或者归纳出不同物质的下落模型。然而，仅凭归纳是无法推导出重力加速度或空气阻力等科学原理的。尽管压缩可以体现智能，但最高级的智能来自于推理、假设和实验的过程。