硅谷Q1观察：强化学习的再起

最新推荐文章于 2024-09-14 16:23:11 发布

老油杂谈

最新推荐文章于 2024-09-14 16:23:11 发布

阅读量1.4k

点赞数 31

文章标签： AIGC

本文链接：https://blog.csdn.net/BigBlue92/article/details/138204462

版权

今年的第一季度，强化学习（RL）再次成为硅谷的热点。

NVIDIA延续了其从MineCLIP、Voyager到Eureka的大模型结合RL实践，发布了Gr00t，一款在Humanoid领域结合Generative AI与RL的通用基础模型。

而最近大火的“AI Software Engineer” Devin的作者Scott Wu也暗示了Devin超强的推理能力来源于LLMs与RL的结合（图1）：

图1: Scott Wu的暗示

如果再算上第一季度涌现的各类World Model，例如Sora（OpenAI）、Genie（Google）、V-JEPA（Meta）和SIMA（DeepMind），我们可以观察到继RLHF之后，RL再次成为大模型界的焦点。

而RL再度崛起的原因是：System-2。

System-2

虽然对AGI的定义还未有共识，但行业已经认同下一代大模型应具备System-2级别的智能，即通过深思熟虑和“长考”以解决更复杂的问题。

依照Yann LeCun对Human-level AI标准的定义（图2），达成System-2的技术路线至少需要满足两方面要求（图3）：

图2: LeCun定义的Human-level AI标准

Solving Complex Problems。技术路线能够解决复杂问题，具备推理（Reason）、任务分解（Sub-goals & Hierarchical Planning）以及求解优化求解（Optimization）等能力；
Understanding the Physical World。技术路线需要具备能够诠释Physical World的Internal Model（World Model），能够代表Physical World的运行规律（Approximation）、解释其状态（Observation/State）和推测其未来（Prediction）。

图3: System-2 对技术路线的要求

但是，LLMs-Based主流路线在达成System-2上却有着先天的缺陷。

先天的缺陷

LLMs-Based主流路线一直以来是依仗更强的Large Foundation Model（例如，Claude 3）、更快的Inference速度（例如，Groq）、Prompt Engineering（例如，ToT、CoT以及multi-agents）、以及外部工具（Tools）等机制来提升Agent的问题解决能力。

但正如Andrej Karpathy所述，LLMs本质上只具备System-1级别的智能，而主流路线的“任务拆解”、“放缓思考速度”的战术并无法从本质克服其先天缺陷（图4）：

图4：LLMs-Based主流路线的先天缺陷

首先，语言不能完整表达Physical World。LeCun认为，人类在推演方案时并不需要语言，而是利用Physical World在大脑中投射的Mental Model来进行演算。而因语言无法完整、有效率地表述Physical World，主流路线也无法依赖LLMs去构建完整World Model去诠释外部世界。

其次，LLMs薄弱的优化（Optimization）机制。与RL的Policy/Value机制不同，主流路线缺乏可量化的优化机制，只能通过Plan-Reflection生成“能用”的解决方案。而在面临复杂、多步骤或多系统协同的问题时，这些“能用”的方案所产生细微偏差的累积往往会被放大为主要偏差，导致无法达成最优，甚至是次优的解决方案。

为此，硅谷一直在尝试利用RL来解决上述问题，其努力分为两类：

通过LLMs + Model-Free RL（MFRL）增强主流路线；
打造基于Generative AI的通用World Model，激活Model-Based RL（MBRL）路线。

LLMs + MFRL

MFRL是指在没有World Model的情况下，Agent通过对Environment的直接观察和互动来学习决策。它通过“trial and error”的方式来学习Policy/Value，从而指定每个State的后续Action。

MFRL可以从两个层面增强主流路线（图5）：

首先，虽然没有World Model，对Environment的观察（Observation）也能够增加主流路线对Physical World的理解；
其次，其可以在主流路线既有的Plan-Reflection流程中插入Optimization环节，通过量化优化以提升主流路线的问题解决能力。

图5: MFRL对主流路线的提升

NVIDIA Eureka是比较典型LLMs + MFRL 案例。Eureka可以训练机器人完成快速转笔、开橱柜和使用剪刀等高精度任务（视频1）：

Eureka的转笔技能

00:24

视频1：转笔的Eureka

Eureka的Plan-Optimization-Reflection流程则大幅度提升了机器人的灵敏度，其步骤如下（图6）：

图6：EUREKA的工作流程

Plan：使用Prompt和Env Code通过GPT-4生成多个候选Reward Functions；
Optimization：在Isaac Gym中，利用候选Reward Functions和PPO算法训练Policy Network，评估并量化反馈以选出最好的Reward Function。
Reflection：基于最好的Function和Policy Network的量化结果，开启下一轮的优化流程。

Eureka将机器人的性能提升了50%以上，其产生的Reward Function在超过80%的任务中表现优于人工设计的函数。

但是，对比MBFL，MFRL并没有真正意义上的World Model，也不具备Plan能力（图7，右一的DQN/SARSA架构中并不存在World Model和Planning环节），其增强并不足以让主流路线最终达到System-2。

图7：MBRL vs MFRL - Dyna（Learnt Model）, AlphaGoZero（Known Model）and DQN/SARSA（No Model）- Source: 《Model-based Reinforcement Learning: A Survey》

而在MFRL“此路不通”的同时，MBFL正在被Generative AI激活。

激活MBRL

在过去的十年中，MBRL的Plan能力在Continuous和Discrete问题上都取得了进展。MBRL利用算法（例如MDPs、Trajectory Optimization或者MPC）将复杂的问题拆解为子问题，通过寻求每个子问题的最优解，而找到全局的最优解。同时，针对每个子问题，MBRL可以利用“rollout”算法（例如MCTS和MPC），通过探索和模拟遴选出最优方案。

但是，MBRL的World Model却一直受限于通用性。在过去的实践中，World Model往往来源于既定的规则（例如，Alpha Go），亦或是特定领域的训练结果（通常伴随Policy共同训练）。

而一季度发布的Sora、Genie、V-JEPA和SIMA却展示了硅谷利用Generative AI打造通用的World Model、激活MBRL所做的努力。在硅谷的愿景中，基于Generative AI的MBRL的蓝图如下（图8）：

图8: 基于Generative AI的MBRL

而大模型的御三家OpenAI、Google和Meta也推出了自己的World Model原型以验证该蓝图（图9），其中

图9：业界的World Models从不同角度

Sora表现出较强的Multi-step Prediction能力；
Genie验证了World Model基于当前State和Action的预测未来状态的能力（（St，At )->St+1），模型展现出了trajectory的一致性；
SIMA探索了在Generative AI对Policy Network的改进；
V-JEPA展示了结合Vision Transformer与传统机器学习构建World Model的可能性。

上述World Model的原型虽未能完成MBRL的闭环，但它们体现了行业整体对MBRL寄予的厚望。假以时日，MBRL或许有可能如下图般将Agents推向System-2（图10）。