硅谷Q1观察:强化学习的再起

今年的第一季度,强化学习(RL)再次成为硅谷的热点。

NVIDIA延续了其从MineCLIP、Voyager到Eureka的大模型结合RL实践,发布了Gr00t,一款在Humanoid领域结合Generative AI与RL的通用基础模型。

而最近大火的“AI Software Engineer” Devin的作者Scott Wu也暗示了Devin超强的推理能力来源于LLMs与RL的结合(图1):

1: Scott Wu的暗示

如果再算上第一季度涌现的各类World Model,例如Sora(OpenAI)、Genie(Google)、V-JEPA(Meta)和SIMA(DeepMind),我们可以观察到继RLHF之后,RL再次成为大模型界的焦点。

RL再度崛起的原因是:System-2


 

System-2

虽然对AGI的定义还未有共识,但行业已经认同下一代大模型应具备System-2级别的智能,即通过深思熟虑和“长考”以解决更复杂的问题。

依照Yann LeCun对Human-level AI标准的定义(图2),达成System-2的技术路线至少需要满足两方面要求(图3):

2: LeCun定义的Human-level AI标准

  • Solving Complex Problems。技术路线能够解决复杂问题,具备推理(Reason任务分解(Sub-goals & Hierarchical Planning以及求解优化求解Optimization等能力;
  • Understanding the Physical World。技术路线需要具备能够诠释Physical World的Internal Model(World Model),能够代表Physical World的运行规律(Approximation解释其状态(Observation/State)和推测其未来(Prediction

3: System-2 对技术路线的要求

但是,LLMs-Based主流路线在达成System-2上却有着先天的缺陷


 

先天的缺陷

LLMs-Based主流路线一直以来是依仗更强的Large Foundation Model(例如,Claude 3)、更快的Inference速度(例如,Groq)、Prompt Engineering(例如,ToT、CoT以及multi-agents)、以及外部工具(Tools)等机制来提升Agent的问题解决能力。

但正如Andrej Karpathy所述,LLMs本质上只具备System-1级别的智能,而主流路线的任务拆解放缓思考速度的战术并无法从本质克服其先天缺陷(图4

4LLMs-Based主流路线的先天缺陷

首先,语言不能完整表达Physical World。LeCun认为,人类在推演方案时并不需要语言,而是利用Physical World在大脑中投射的Mental Model来进行演算。而因语言无法完整、有效率地表述Physical World,主流路线也无法依赖LLMs去构建完整World Model去诠释外部世界

其次,LLMs薄弱的优化(Optimization)机制。与RL的Policy/Value机制不同,主流路线缺乏可量化的优化机制,只能通过Plan-Reflection生成“能用”的解决方案。而在面临复杂、多步骤或多系统协同的问题时,这些能用的方案所产生细微偏差的累积往往会被放大为主要偏差,导致无法达成最优,甚至是次优的解决方案

为此,硅谷一直在尝试利用RL来解决上述问题,其努力分为两类:

  1. 通过LLMs + Model-Free RL(MFRL)增强主流路线;
  2. 打造基于Generative AI的通用World Model,激活Model-Based RL(MBRL)路线 。

LLMs + MFRL

MFRL是指在没有World Model的情况下,Agent通过对Environment的直接观察和互动来学习决策。它通过“trial and error”的方式来学习Policy/Value,从而指定每个State的后续Action。

MFRL可以从两个层面增强主流路线(图5):

  • 首先,虽然没有World Model,对Environment的观察(Observation)也能够增加主流路线对Physical World的理解;
  • 其次,其可以在主流路线既有的Plan-Reflection流程中插入Optimization环节,通过量化优化以提升主流路线的问题解决能力。

图5: MFRL对主流路线的提升

NVIDIA Eureka是比较典型LLMs + MFRL 案例。Eureka可以训练机器人完成快速转笔、开橱柜和使用剪刀等高精度任务(视频1):

Eureka的转笔技能

00:24

视频1:转笔的Eureka

EurekaPlan-Optimization-Reflection流程则大幅度提升了机器人的灵敏度,其步骤如下(图6):

图6:EUREKA的工作流程

  1. Plan:使用Prompt和Env Code通过GPT-4生成多个候选Reward Functions;
  2. Optimization:在Isaac Gym中,利用候选Reward Functions和PPO算法训练Policy Network,评估并量化反馈以选出最好的Reward Function。
  3. Reflection:基于最好的Function和Policy Network的量化结果,开启下一轮的优化流程。

Eureka将机器人的性能提升了50%以上,其产生的Reward Function在超过80%的任务中表现优于人工设计的函数。

但是,对比MBFL,MFRL并没有真正意义上的World Model,也不具备Plan能力(图7,右一的DQN/SARSA架构中并不存在World Model和Planning环节),其增强并不足以让主流路线最终达到System-2

7MBRL vs MFRL - DynaLearnt Model, AlphaGoZeroKnown Modeland DQN/SARSANo Model- Source: Model-based Reinforcement Learning: A Survey

而在MFRL“此路不通”的同时,MBFL正在被Generative AI激活。


 

激活MBRL

在过去的十年中,MBRL的Plan能力在Continuous和Discrete问题上都取得了进展。MBRL利用算法(例如MDPs、Trajectory Optimization或者MPC)将复杂的问题拆解为子问题,通过寻求每个子问题的最优解,而找到全局的最优解。同时,针对每个子问题,MBRL可以利用“rollout”算法(例如MCTS和MPC),通过探索和模拟遴选出最优方案

但是,MBRL的World Model却一直受限于通用性。在过去的实践中,World Model往往来源于既定的规则(例如,Alpha Go),亦或是特定领域的训练结果(通常伴随Policy共同训练)。

而一季度发布的SoraGenieV-JEPASIMA却展示了硅谷利用Generative AI打造通用的World Model、激活MBRL所做的努力。在硅谷的愿景中,基于Generative AI的MBRL的蓝图如下(图8):

8: 基于Generative AIMBRL

而大模型的御三家OpenAI、Google和Meta也推出了自己的World Model原型以验证该蓝图(图9),其中

9:业界的World Models从不同角度

  • Sora表现出较强的Multi-step Prediction能力;
  • Genie验证了World Model基于当前StateAction的预测未来状态的能力((St,At )->St+1),模型展现出了trajectory的一致性;
  • SIMA探索了在Generative AI对Policy Network的改进;
  • V-JEPA展示了结合Vision Transformer与传统机器学习构建World Model的可能性。

上述World Model的原型虽未能完成MBRL的闭环,但它们体现了行业整体对MBRL寄予的厚望。假以时日,MBRL或许有可能如下图般将Agents推向System-2(图10)。

10: MBRL有潜力满足System-2的需求

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老油杂谈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值