今年的第一季度,强化学习(RL)再次成为硅谷的热点。
NVIDIA延续了其从MineCLIP、Voyager到Eureka的大模型结合RL实践,发布了Gr00t,一款在Humanoid领域结合Generative AI与RL的通用基础模型。
而最近大火的“AI Software Engineer” Devin的作者Scott Wu也暗示了Devin超强的推理能力来源于LLMs与RL的结合(图1):
图1: Scott Wu的暗示
如果再算上第一季度涌现的各类World Model,例如Sora(OpenAI)、Genie(Google)、V-JEPA(Meta)和SIMA(DeepMind),我们可以观察到继RLHF之后,RL再次成为大模型界的焦点。
而RL再度崛起的原因是:System-2。
System-2
虽然对AGI的定义还未有共识,但行业已经认同下一代大模型应具备System-2级别的智能,即通过深思熟虑和“长考”以解决更复杂的问题。
依照Yann LeCun对Human-level AI标准的定义(图2),达成System-2的技术路线至少需要满足两方面要求(图3):
图2: LeCun定义的Human-level AI标准
- Solving Complex Problems。技术路线能够解决复杂问题,具备推理(Reason)、任务分解(Sub-goals & Hierarchical Planning)以及求解优化求解(Optimization)等能力;
- Understanding the Physical World。技术路线需要具备能够诠释Physical World的Internal Model(World Model),能够代表Physical World的运行规律(Approximation)、解释其状态(Observation/State)和推测其未来(Prediction)。
图3: System-2 对技术路线的要求
但是,LLMs-Based主流路线在达成System-2上却有着先天的缺陷。
先天的缺陷
LLMs-Based主流路线一直以来是依仗更强的Large Foundation Model(例如,Claude 3)、更快的Inference速度(例如,Groq)、Prompt Engineering(例如,ToT、CoT以及multi-agents)、以及外部工具(Tools)等机制来提升Agent的问题解决能力。
但正如Andrej Karpathy所述,LLMs本质上只具备System-1级别的智能,而主流路线的“任务拆解”、“放缓思考速度”的战术并无法从本质克服其先天缺陷(图4):
图4:LLMs-Based主流路线的先天缺陷
首先,语言不能完整表达Physical World。LeCun认为,人类在推演方案时并不需要语言,而是利用Physical World在大脑中投射的Mental Model来进行演算。而因语言无法完整、有效率地表述Physical World,主流路线也无法依赖LLMs去构建完整World Model去诠释外部世界。
其次,LLMs薄弱的优化(Optimization)机制。与RL的Policy/Value机制不同,主流路线缺乏可量化的优化机制,只能通过Plan-Reflection生成“能用”的解决方案。而在面临复杂、多步骤或多系统协同的问题时,这些“能用”的方案所产生细微偏差的累积往往会被放大为主要偏差,导致无法达成最优,甚至是次优的解决方案。
为此,硅谷一直在尝试利用RL来解决上述问题,其努力分为两类:
- 通过LLMs + Model-Free RL(MFRL)增强主流路线;
- 打造基于Generative AI的通用World Model,激活Model-Based RL(MBRL)路线 。
LLMs + MFRL
MFRL是指在没有World Model的情况下,Agent通过对Environment的直接观察和互动来学习决策。它通过“trial and error”的方式来学习Policy/Value,从而指定每个State的后续Action。
MFRL可以从两个层面增强主流路线(图5):
- 首先,虽然没有World Model,对Environment的观察(Observation)也能够增加主流路线对Physical World的理解;
- 其次,其可以在主流路线既有的Plan-Reflection流程中插入Optimization环节,通过量化优化以提升主流路线的问题解决能力。
图5: MFRL对主流路线的提升
NVIDIA Eureka是比较典型LLMs + MFRL 案例。Eureka可以训练机器人完成快速转笔、开橱柜和使用剪刀等高精度任务(视频1):
Eureka的转笔技能
00:24
视频1:转笔的Eureka
Eureka的Plan-Optimization-Reflection流程则大幅度提升了机器人的灵敏度,其步骤如下(图6):
图6:EUREKA的工作流程
- Plan:使用Prompt和Env Code通过GPT-4生成多个候选Reward Functions;
- Optimization:在Isaac Gym中,利用候选Reward Functions和PPO算法训练Policy Network,评估并量化反馈以选出最好的Reward Function。
- Reflection:基于最好的Function和Policy Network的量化结果,开启下一轮的优化流程。
Eureka将机器人的性能提升了50%以上,其产生的Reward Function在超过80%的任务中表现优于人工设计的函数。
但是,对比MBFL,MFRL并没有真正意义上的World Model,也不具备Plan能力(图7,右一的DQN/SARSA架构中并不存在World Model和Planning环节),其增强并不足以让主流路线最终达到System-2。
图7:MBRL vs MFRL - Dyna(Learnt Model), AlphaGoZero(Known Model)and DQN/SARSA(No Model)- Source: 《Model-based Reinforcement Learning: A Survey》
而在MFRL“此路不通”的同时,MBFL正在被Generative AI激活。
激活MBRL
在过去的十年中,MBRL的Plan能力在Continuous和Discrete问题上都取得了进展。MBRL利用算法(例如MDPs、Trajectory Optimization或者MPC)将复杂的问题拆解为子问题,通过寻求每个子问题的最优解,而找到全局的最优解。同时,针对每个子问题,MBRL可以利用“rollout”算法(例如MCTS和MPC),通过探索和模拟遴选出最优方案。
但是,MBRL的World Model却一直受限于通用性。在过去的实践中,World Model往往来源于既定的规则(例如,Alpha Go),亦或是特定领域的训练结果(通常伴随Policy共同训练)。
而一季度发布的Sora、Genie、V-JEPA和SIMA却展示了硅谷利用Generative AI打造通用的World Model、激活MBRL所做的努力。在硅谷的愿景中,基于Generative AI的MBRL的蓝图如下(图8):
图8: 基于Generative AI的MBRL
而大模型的御三家OpenAI、Google和Meta也推出了自己的World Model原型以验证该蓝图(图9),其中
图9:业界的World Models从不同角度
- Sora表现出较强的Multi-step Prediction能力;
- Genie验证了World Model基于当前State和Action的预测未来状态的能力((St,At )->St+1),模型展现出了trajectory的一致性;
- SIMA探索了在Generative AI对Policy Network的改进;
- V-JEPA展示了结合Vision Transformer与传统机器学习构建World Model的可能性。
上述World Model的原型虽未能完成MBRL的闭环,但它们体现了行业整体对MBRL寄予的厚望。假以时日,MBRL或许有可能如下图般将Agents推向System-2(图10)。
图10: MBRL有潜力满足System-2的需求