关于最近研究OpenAI o1和“推理Scaling Laws”后的一些个人观点

本篇是《带你自学大语言模型》系列的番外篇,写一些我最近研究OpenAI o1和推理Scaling Laws后的一些个人观点分享。

本节目录

  • 写在前面

    1. o1 目前是一个原型,而非产品
    1. 关于所谓的“范式转移”
    1. “推理 Scaling Laws”当前的研究现状
    1. 相关资料

欢迎关注同名公众号【陌北有棵树】,关注AI最新技术与资讯。

本系列目录

《带你自学大语言模型》系列部分目录及计划,完整版目录见:带你自学大语言模型系列 —— 前言

第一部分 走进大语言模型(科普向)

第二部分 构建大语言模型(技术向)

第三部分 大语言模型应用

… …

写在前面

关于这次发布的o1(准确来讲是o1-preview)的热度,只能说AI已经有一段时间没有新故事了,同时OpenAI应该是又缺钱了,所以又讲了个故事来给AI续了一波命,最近也有新闻OpenAI最新融资65亿美元,当前估值已经达到1500亿美元。可见会讲故事有多重要,Anthropic 真应该学学…

各种新闻和解读已经满天飞,已有内容我也不想再去重复了,就写一些自己的观点和这几天的研究成果吧。

我倒觉得与其说什么“范式转移”,倒不如实在一点,就是数据不够了,更准确说是优质数据不够了,否则谁不想要一个能力更强的基座模型呢?不上清华难道是因为不喜欢吗?

GPT4是2023年3月发布的,在2022年8月就已经预训练完成,所以从GPT4到我们期待的GPT5,已经卡了近两年的时间,从这一年来OpenAI发布Sora、发布GPT 4o,其实都能看出,都是在模型的感知层面,而非认知层面做文章。

但如果模型能力无法再提升一个量级,之前画的很多饼都没法兑现。Agent之所以直到现在还是个饼,就是因为大模型的推理能力还不够,如果推理能力始终停在GPT-4的水平,很多场景都落不了地,所以4o的多模态方向只能说是个权宜之计,这场戏要想接着唱下去,推理能力还是要有实打实的提升。

上次我在CSDN的分享里,也提到了推理能力对于应用落地的重要性,大家感兴趣可以去看:AI时代的程序员:关于创业、应用开发与快速成长的经验分享 | CSDN杭州线下分享

好在大佬们又找到了新的解法。具体是什么呢?打个比方,如果把模型比成一个个人,GPT4就是目前基因最优的,但如果想让他基因再优秀一点,就得投入更大的成本,投入产出比太低了。于是有了4o和o1,无论是提升他“看世界”的感知层面能力,还是提升他的逻辑推理能力,都属于对他的再教育阶段。

其实这对国内大模型厂商某种程度是利好,拿着LLama 3.1 405B去搞推理阶段的强化学习,至少是差距没那么大了。

1. o1 目前是一个原型,而非产品

之所以把这句列成一个小标题,主要还是想提醒大家,短期不要预期过高,但也不代表你要忽略它长期的价值。

Open AI的应用研究负责人自己都说,o1更接近于CPT-3的发布,而不是ChatGPT,Sam Altman 对此更为保守,他说目前还只是 GPT-2的阶段。也就是说,o1并不是一个已经找到PMF的产品,而是一个原型,一个试验品。

虽然当前极大概率达不到预期,但至少未来可期。从应用侧,只要模型能力在持续渐进式解锁,在解锁过程中就能不断打开新的场景,已经有Cursor 和 Claude-3.5-Sonnet做了验证:

Cursor之所以在这个时间点能火起来,很大程度上是因为 Claude-3.5-Sonnet 的代码能力变强了,而 Claude 3.5 Sonnet 代码能力显著提升的背后其实也是强化学习在起作用。

这至少了证明了两件事,一是模型推理能力的提升,对于新场景的解锁起着至关重要的作用,二是 Claude-3.5-Sonnet 的代码推理能力真的不错,Anthropic用的应该也是类似的方式,强化学习这个路子目前看起来可行。而且Anthropic 真的是一个闷声搞事情的公司,不容忽视。

2. 关于所谓的“范式转移”

的确是技术路线上发生了一些转移,但真的不要动不动就“范式”什么的了,听的我是一愣一愣的,都是在摸着石头过河,只不过OpenAI摸过的石头,大家就觉得这块石头开过光,但现在,谁又能说自己就是银弹呢?

如前文说,到GPT4的时候,其实已经出现了停滞,再在预训练阶段堆算力和数据(也就是原来的Scaling Law),成本很高,而且已经显现出边际递减的效应。

所以这时来到岔路口,一条通向多模态,也就是Sora,GPT4o,另一条就是o1的推理模型,如果让我用一句话总结GPT4o和 o1 的区别,4o 在做感知层面的加强,o1 在做认知层面的加强。 我相信OpenAI的目标肯定是奔着推理能力去的,从他们给出的AI 的五个发展阶段,也能看出他们的主线是没变的。

第一阶段(聊天机器人)到第二阶段(推理系统)的转变花了很长时间。但第二阶段可以相对较快地过渡到第三阶段(AI 智能体)。
在这里插入图片描述

在OpenAI的官方文章里,一直强调这是一个推理模型,而不是一个大语言模型。甚至为了和之前的GPT系列做切割,这个系列连名字都改了,也看出OpenAI划清界限的决心。之所以这么着重强调这点,是因为两者的路线和训练方式是不同的。再进一步延伸GPT系列和o系列在底层的差别:

GPT系列的技术路线:「预训练 + 微调 + RLHF」

先在预训练阶段用海量数据教大模型学会预测下一个词,然后在精调阶段让大模型学习特定领域的知识,让人类写回答教大模型什么是人想要的答案,机器根据反馈来改进。

o1系列的关键词:「强化学习 + 思维链 + Self-play」

OpenAl如此描述这个过程:“通过强化学习,o1学会如何打磨自己的思维链,并完善它所使用的策略。它学会了识别和纠正自己的错误;将复杂步骤分解为更简单的步骤;在当前方法不起作用时尝试不同的方法。这极大地提高了模型的推理能力。"

强化学习的作用是什么?其实是让模型“学会慢思考”,说白了就是用推理时间换训练时间。简单来说,既然模型不知道如何做推理,那就在推理阶段让人来告诉它怎么推。这就是思维链,思维链之前是通过在模型外部通过prompt来唤起的,o1做的就是将CoT内化到模型内部,让模型自己生产推理步骤并内部评估,以实现内在自动化。

OpenAI并不是第一个在研究用强化学习提升推理能力的公司,Google、Anthropic 也在这个方向上发力,Claude 3.5 Sonnet在GPQA测试中的得分为67.2%,超过了领域内专业博士的水平,只是相关的技术细节没有透漏,Google在8月份就发布了一篇论文《 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》技术路线上和OpenAI此次公布的如出一辙。

目前这个技术学界和各大厂究竟研究到哪一步呢,下面这些论文可以给出一些启发。

3. “推理 Scaling Laws”当前的研究现状

在o1之前,已经有一些针对“推理时优化”相关的研究和论文了,这些论文后面如果有机会,我会再单独写,所以这里先简单概括:

【1】《Let’s Verify Step by Step》 (https://arxiv.org/abs/2305.20050),这篇论文是OpenAI发表的,发表于2023年5月,Ilya也是作者之一,所以无论是Q*,还是o1,底层的逻辑大概率逃不出这篇论文。论文中提出了通过过程监督(Process Supervision, PRM) 来训练更可靠的奖励模型,以解决多步推理任务中的逻辑错误问题。所谓的过程监督就是:在每个推理步骤后提供反馈,指示该步骤是否正确。这种方法提供了更精确的反馈,因为它指定了错误发生的具体位置。文中比较了过程监督和结果监督两种方式在数学推理场景中的效果,证明了过程监督能够减少逻辑错误和提高数据效率。

下图是文中给出的过程监督的例子:

在这里插入图片描述

剩下的几篇都是近期的论文,我按照时间顺序来列,这个领域现在看起来还的确比较新,而且比较空白。这几篇文章都通过不同的方式,证明了在推理阶段做一些优化,能够提升模型性能:

【2】《Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems》 ( https://arxiv.org/abs/2403.02419),这篇论文主要研究复合系统(Compound AI Systems)的可扩展性,所谓的复合系统就是通过调用多个语言模型(LM)并聚合它们的响应来实现的。设计了两种复合系统:Vote和Filter-Vote,Vote通过多数投票聚合多个候选答案,而Filter-Vote在多数投票前使用过滤器。

下面这张图表明:随着LM调用的数量增加,Vote和Filter-Vote在简单查询上的表现越来越好,但在困难查询上表现越来越差。

在这里插入图片描述

【3】《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》 (https://arxiv.org/abs/2407.21787),这篇论文v1版本是2024年7月,在9月16号又发表了v2版本,这篇论文主要研究通过通过重复采样的方式来进行推理阶段的Scaling,简单来说就是从语言模型中生成多个候选解决方案。然后,使用特定领域的验证器从生成的样本中选择最终答案。实验表明,这种方式有助于模型覆盖率的显著提升,较小的模型在应用重复采样时显示出更显著的覆盖率提升。
在这里插入图片描述

【4】《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》 (https://arxiv.org/abs/2408.03314),发表于2024年8月,提出了通过优化推理时间计算来提高LLMs性能的方法。论文提出了两种主要的测试时计算扩展机制:(1)搜索对抗密集的过程验证器奖励模型(searching against dense, process-based verifier reward model)(2)根据提示在测试时自适应更新模型的响应分布(updating the model’s distribution over a response adaptively, given the prompt at test time)

下图比较了三种搜索方式:Best-of-N、Beam search、lookahead-search
在这里插入图片描述

基于这两种机制,进而提出了一种“计算最优”的scaling策略,根据问题的难度自适应地分配测试时计算。具体来说,作者定义了“计算最优扩展策略”,通过最大化给定提示下目标分布的准确性来选择超参数。这种策略相比best-of-N,可以再将测试时间的计算效率提高4倍。

在这里插入图片描述

【5】《An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models》 (https://arxiv.org/abs/2408.00724),同样发表于2024年8月,评估了多种推理策略(如贪婪搜索、多数投票、最佳N选1、加权投票及其变体)在不同树搜索算法上的有效性和计算效率,展示了在计算预算有限的情况下,使用较小模型和先进的推理算法可以提高问题解决的准确性,同时保持计算效率。同时提出了REWARD BALANCED SEARCH(REBASE)算法,该算法与加权投票结合良好,并在准确性和推理计算之间实现了帕累托最优权衡。
在这里插入图片描述

下图是本文提出的REWARD BALANCED SEARCH(REBASE)算法:

在这里插入图片描述

4. 相关资料

下面是我整理一些关于o1的资料,方便大家想要深入学习的话,按图索骥。

1、o1-preview的介绍文档:《Introducing OpenAI o1-preview》(https://openai.com/index/introducing-openai-o1-preview/)【简介】在最开始就说了,这是一系列新的推理模型,目标是解决复杂问题,主要涉及的是科学、代码、数学问题。关于工作原理其实这里没有说太多细节,就一句比较重要:这次主要训练了这些模型在回答问题之前花更多时间思考问题。通过训练,它们学会了优化自己的思考过程,尝试不同的策略,并识别自己的错误。但没说怎么做的…

2、o1-mini的介绍文档:《OpenAI o1-mini》(https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/)

【简介】除了o1-preview,本次还推出了o1-mini版本,o1-mini是比o1-preview更快,推理成本更低的模型,整体来看,o1-mini 的成本比 o1-preview 低 80%。o1-mini 是一个较小的模型,在预训练期间针对 STEM 推理进行了优化。

3、《Learning to Reason with LLMs》(https://openai.com/index/learning-to-reason-with-llms/),这是一篇介绍o1的技术博客

【简介】这里说了,主要通过强化学习的训练,去实现复杂的推理任务。模型会真正的自己思考,从而产生内在的思维链。 然后给了一些评估结果,这里很多文章都在大肆宣传了,就不细说了。总结就是很好,很牛逼…

【4】《OpenAI o1 System Card》(https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf),这篇大部分是在讲模型的安全性评估,外部红队评估,如果是想探究内部原理的话,这篇或许帮助不大。

【5】《OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference》(https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws)

【简介】这篇文章发布的时候,o1还没有发布,所以文中还在延用之前盛传的Strawberry模型,此时 Nathan Lambert 就已经提到相比于复杂的模型微调(fine-tuning),增加推理计算投入可以更直接、更明显地提升模型的能力。一个最简单的方式就是“best of N sampling”,通过生成多个可能的输出(而不仅仅是一个),然后使用另一个模型来选择最佳的输出,RLHF用的也是这种方式,但这种方式其实也可以直接用于下游推理阶段。

这里还提出了“Inference scaling laws”,就是说在模型推理阶段投入更多计算资源可以显著提高模型性能。他也提到了“Inference scaling laws”或许会成为新的范式,于是我就好奇这个概念是他先提出的还是Google先提出的,然后我在Google那篇《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》论文的参考文献里,找到了他的论文《Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws》(https://arxiv.org/abs/2401.00448v2),原来他在2023年的时候就已经在研究这个方向了。

【6】《Reverse engineering OpenAI’s o1》(https://www.interconnects.ai/p/reverse-engineering-openai-o1)

【简介】这篇文章和上一篇是同一个作者,是对o1的逆向推导。鉴于上一篇我对他的信任,我十分认真的阅读了这一篇,并且挺多东西也是从这篇里学到的。包括了从Q* 到Strawberry再到 o1的演进路径分析,以及从o1外显的推理步骤、定价等方面去推导o1的系统实现。总之建议大家直接去读原文,收获更多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值