关于GPT-5我们不知道的一切（算法）！

本文链接：https://blog.csdn.net/m0_59235245/article/details/141726769

从GPT-4到GPT-5的扩展规律是可行的，在当前领域不透明的情况下，预测算法的进步更加困难。最好的启发式方法是关注与OpenAI相关的人物，并阅读顶尖实验室发表的论文。

尽管Altman的营销可能带有夸张成分，但可以从他的结构化愿景中提取有价值的见解。这些能力在行为方面，例如推理（自我游戏/循环/试错、系统2思维）、Agent和消费者方面，例如个性化（RAG、微调），都有所体现，所有这些都需要算法上的突破。GPT-5是否会实现这一愿景？

智能体（Agents）

GPT-5是否会具有智能体能力，或者它是否会像之前的GPT版本一样，是一个标准的语言模型，能够做很多事情但不能制定计划并根据这些计划采取行动以实现目标？这个问题之所以重要，将其分解为以下三个原因：

智能体对智能的重要性怎么强调都不为过。
我们知道这种能力的原始版本在某种程度上是可能的。
OpenAI一直在研究人工智能智能体。

为了获得隐性知识，人类会做事。但是，“做”在有助于学习和理解的方式上需要遵循反馈循环、实验、工具使用和一种将所有这些与现有知识池整合的方式（这正是AlphaZero所做的超越模仿学习的有针对性推理）。因此，对于一个智能体来说，推理是一个手段，而不是目的（这就是为什么它在真空中没用）。推理提供了新的显性知识，然后AI智能体使用这些知识来规划和行动，以获得实现复杂目标所需的隐性知识。这是智能的精髓；这是AI的终极形态。

这种Agent智能与像GPT-4、Claude 3、Gemini 1.5或Llama 3这样的LLMs形成对比，它们在执行计划方面表现不佳（早期基于LLM的智能体尝试如BabyAGI和AutoGPT或失败的自主性实验就是证据）。当前最好的AI是次智能体的或者，使用更官方的术语，它们是AI工具。

那么，我们如何从AI工具转变为能够推理、规划和行动的AI智能体呢？OpenAI能否弥合GPT-4，一个AI工具，与GPT-5，潜在的AI智能体之间的差距？标记预测算法（TPAs），这是一个包括其他模态模型的总称，例如DALL-E、Sora或Voice Engine——足以实现AI智能体。

标记预测算法（TPAs）极其强大。它们如此强大，以至于现代生成性人工智能的全部都建立在一个前提之上：一个足够能干的TPA能够发展出智能。GPT-4、Claude 3、Gemini 1.5和Llama 3都是TPAs。Sora是一个TPA（其创造者说它将通过模拟一切来实现通用人工智能）。Voice Engine和Suno也是TPAs。甚至像Figure 01（“视频输入，轨迹输出”）和Voyager（一个使用GPT-4的AI Minecraft玩家）这样不太可能的例子本质上也是TPAs。但是，纯粹的TPA可能不是解决所有问题的最佳方案。例如，DeepMind的AlphaGo和AlphaZero不是TPAs，它们是强化学习、搜索和深度学习的巧妙结合。

推理（Reasoning）

这可能是GPT-5以前所未有的方式带来的一个大问题。Altman告诉Fridman，GPT-5将比以往的模型普遍更聪明，这是说它将更能够进行推理的简略方式。如果说人类的智能在一件事上区别于动物的智能，那就是我们能够对事物进行推理。推理，给你一个定义，就是通过逻辑规则（如演绎或归纳）将现有知识与新信息结合起来，从而得出更接近真相的知识的能力。这就是我们如何构建对世界的心理模型（目前在AI中是一个热门概念），以及我们如何制定计划来实现目标。

在这里插入图片描述

AI公司过于专注于模仿学习，即获取互联网上大量的人类制造的数据，然后用它来喂养巨大的模型，以便它们可以通过像我们一样写作和解决问题来学习（这就是纯LLMs所做的）。理论是，通过用几个世纪以来人类创造的数据喂养AI，它会学会像我们一样推理，但这并没有奏效。

模仿学习方法有两个重要的限制：

第一，互联网上的知识大多是显性知识（知道什么），但隐性知识（知道如何）无法通过言语准确传递，所以我们甚至不尝试——你在网上找到的大多是复杂迭代过程的最终产品（例如，你阅读我的文章，但你并不知道你不知道我必须经历几十次草稿）。
第二，模仿只是人类孩子学习工具箱中的众多工具之一。孩子们还进行实验，尝试试错，自我游戏——我们享受通过反馈循环与世界互动的多种学习方式，这些反馈循环更新知识和整合机制，将知识堆叠在现有知识之上。LLMs缺乏这些关键的推理工具。然而，DeepMind的AlphaGo Zero如何以100-0击败AlphaGo的——没有使用任何人类数据，只是通过自身玩游戏，利用深度强化学习（RL）和搜索的结合。

除了这种强大的试错循环机制外，AlphaGo和AlphaGo Zero还有一个额外的特性，即使是最好的LLMs（GPT-4、Claude 3等）今天也没有：思考下一步要做什么的能力（这是说它们使用搜索算法通过将新信息与先前知识对比和整合来辨别好坏和更好的选择的平凡方式）。根据手头问题的复杂性分配计算能力是人类一直在做的事情。这就是Daniel Kahneman在他的畅销书《思考，快与慢》中所说的系统2思维。Yoshua Bengio和Yann LeCun试图赋予AI“系统2思维”能力。

自我游戏/循环/试错、系统2思维——是开始缩小AI与人类推理差距的有希望的研究途径。有趣的是，拥有这些能力的AI的存在，如DeepMind的AlphaGo Zero——还有AlphaZero和MuZero（甚至没有被告知游戏规则）——与这样一个事实形成对比：今天的最新一代AI系统，如GPT-4，缺乏它们。原因是现实世界（甚至只是语言世界）比棋盘更难“解决”：一个不完全信息的游戏，定义不清的规则和奖励，以及几乎无限自由度的无约束动作空间，是你在科学中能找到的最接近不可能的挑战。

相信弥合推理游戏玩家AI和推理现实世界AI之间的差距就是所有当前推理项目的意义所在。证据让我认为OpenAI特别专注于通过将搜索和RL的力量与LLMs结合起来，从而超越纯模仿学习。这就是关于Q*的猜测

所以，要超越模仿学习，你必须将它与搜索、自我游戏、强化学习等结合起来。GPT-5将是一个纯粹的LLM，具有显著增强的推理能力，借鉴自类似Q*的RL模型。

个性化（Personalization）

个性化是关于使用户与AI建立更亲密的关系，赋予用户更多的权力。用户无法像他们可能想要的那样，使ChatGPT成为他们定制的助手。系统提示、微调、RAG（检索增强生成）和其他技术允许用户引导聊天机器人达到他们期望的行为，但就AI对用户的了解程度和用户对AI（以及它发送到云端服务器以获得响应的数据）的控制而言，这是不够的。

如果AI公司不想让用户冒险转向开源，即使这意味着更多的努力，他们就需要找到一个既能满足自己又能令客户满意的折中解决方案。在功能强大和隐私保护之间有没有令人满意的中间地带？如果你要做大，你就得上云。OpenAI甚至没有试图使个性化成为GPT-5的优势。原因之一是：模型将非常庞大且计算密集，所以忘了本地处理和数据隐私（大多数企业不会愿意将他们的数据发送给OpenAI）。

除了隐私和设备上处理之外，还有另一件事将开启一个新级别的个性化（其他公司已经实现了，特别是Google和Magic，尽管只有Google公开发布了具有这一特性的模型）：数百万字的上下文窗口。

在如此多的输入提示上进行推理成本高昂，随着你添加的每个额外的词，成本以二次方的方式变得更加不可承受。这就是所谓的“二次方注意力瓶颈”。然而，似乎这个问题已经被解决了；来自Google和Meta的新研究表明，二次方瓶颈已不复存在。

GPT-5和缩放定律（scaling laws）

模型大小

模型大小趋势：从GPT到GPT-4，模型的参数数量有显著增长。GPT，2018 年（1.17 亿），GPT-2，2019 年（15 亿），GPT-3，2020 年（1.75 亿），GPT-4，2023 年（1.8 万亿，估计）
MoE架构：GPT-5预计将继续使用Mixture of Experts（MoE）架构，这种架构通过激活不同专家（小型专业模型）来处理输入，从而提高性能和推理效率。
参数数量预测：尽管有预测GPT-5的参数数量可能在2-5万亿之间，但确切的参数数量未知，因为模型的大小取决于多种因素，包括训练数据集的大小和可用的计算资源。

数据集大小

训练数据的重要性：根据Chinchilla缩放定律，更大的模型需要更多的训练数据来避免训练不足，确保模型性能的提升。
数据量与模型性能：数据显示，即使是过度训练，只要有足够的数据，模型如Llama 3依然能够持续学习并提升性能。
GPT-4的训练数据量：GPT-4已在大约12-13万亿个token上进行了训练，这个数据量为GPT-5提供了一个参考基点。
GPT-5的数据需求：如果GPT-5的模型大小与GPT-4相似，OpenAI可能需要进一步增加数据量，例如通过增加至100万亿个token，来实现性能上的提升。
数据收集策略：

使用Whisper模型转录YouTube视频，尽管这可能违反YouTube的服务条款。
利用合成数据，这在AI领域已成为一种常见且必要的做法，尤其是在可用的人造互联网数据减少的情况下。

计算

GPU数量与模型性能：更多的GPU资源允许在相同数据集上训练更大的模型，并且可以进行更多轮次的训练，这有助于提升模型的性能，直至达到某个性能瓶颈。
性能提升的时间跨度：在2022年8月至2023年3月期间（GPT-4的训练周期），以及现在，性能提升可能与可用的计算资源有关。
OpenAI的资源访问：OpenAI能够访问Azure的数千台H100 GPU，这为其训练下一代模型提供了大量的FLOP（浮点运算次数），这是提升模型性能的关键因素。
MoE架构的优化：OpenAI可能发现了进一步优化混合专家（MoE）架构的方法，这可以在不增加训练或推理成本的情况下拟合更多的参数。

Alberto Romero对GPT-5的规模预估

GPT-5的规模估计：假设OpenAI使用25k H100 GPU训练GPT-5，而不是Thompson建议的25k A100。H100在训练大型语言模型（LLMs）时比A100快2到4倍，成本相似。如果GPT-5的训练周期为4-6个月，那么其参数规模可能在7-11T，是Thompson估计的两倍多。
GPT-5的潜在规模：如果考虑到现有的并行配置在推理时分配模型权重的能力，GPT-5的参数规模可能达到10-15T，是GPT-4的十倍。OpenAI也可能选择使模型更高效，即更便宜。
GPT-4的改进与成本效益：考虑到OpenAI持续改进GPT-4，部分新可用的计算资源可能会被重新分配，以提高GPT-4的效率/降低成本，甚至可能免费提供，以取代GPT-3.5。这可能会吸引那些知道ChatGPT存在但不愿付费或不知道3.5免费版和4付费版之间巨大差异的用户。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述