论文题目: Doubly Mild Generalization for Offline Reinforcement Learning
论文链接: https://openreview.net/pdf?id=7QG9R8urVy;https://arxiv.org/html/2411.07934v2
摘要
离线强化学习(Offline RL)受到外插误差和价值高估的影响。从泛化的角度来看,这一问题可归因于价值函数或策略对分布外(OOD)动作的过度泛化。大量研究致力于缓解这种泛化,近期的样本内学习方法更是成功地完全规避了这一问题。然而,我们发现,在某些条件下,可以信任并利用超出数据集的适度泛化来提升性能。为在离线强化学习中适当地利用泛化,我们提出了“双重适度泛化”(Doubly Mild Generalization,DMG),包括:(i) 适度动作泛化和 (ii) 适度泛化传播。前者指在数据集的近邻范围内选择动作以最大化 Q 值。然而,潜在的错误泛化仍可能通过引导传播、积累并加剧。对此,我们引入后者概念以减轻泛化传播,同时不妨碍强化学习信号的传播。从理论上讲,在理想泛化场景中,DMG 保证性能优于样本内最优策略。即使在最坏的泛化情况下,DMG 仍能在一定程度上控制价值高估并提供性能下界。从实证结果看,DMG 在 Gym-MuJoCo 的运动任务和具有挑战性的 AntMaze 任务中达到了当前最优性能。此外,受益于其在两种泛化方面的灵活性,DMG 可实现从离线到在线学习的无缝过渡,并在在线微调中表现出强劲的性能。
引言
强化学习(Reinforcement Learning, RL)旨在解决序列决策问题,近年来备受关注 [53, 67, 74, 63, 12]。然而,其实际应用面临诸多挑战,如风险探索尝试 [20] 和耗时的数据收集阶段 [35]。离线强化学习(Offline RL)作为一种有前景的范式,可以通过无需与环境交互的学习来缓解这些挑战 [40, 42]。它消除了不安全探索的需求,并促进了对现有大规模数据集的利用 [31, 48, 59]。
然而,离线强化学习面临分布外(Out-of-Distribution, OOD)问题和外插误差的困扰 [19]。从泛化的角度来看,这一广为人知的挑战可以被视为价值函数或策略对 OOD 动作过度泛化的结果 [47]。具体而言,由复杂泛化引起的 OOD 动作的潜在价值高估通常被最大化操作错误捕获 [73]。这种高估会通过贝尔曼更新传播到分布内样本的价值,并进一步通过泛化扩散到 OOD 样本的价值。为缓解 OOD 动作引起的价值高估,大量研究工作已经展开 [19, 39, 38, 17]。近期的样本内学习进展成功地仅使用数据集中存在的动作来构造贝尔曼目标 [37, 85, 92, 88, 21],并通过加权行为克隆提取策略 [57, 80]。因此,这些算法完全规避了泛化并避免了外插误差。尽管方法简单,但这种方式无法利用神经网络的泛化能力,而这一能力可能有助于提升性能。迄今为止,如何在离线强化学习中恰当地利用泛化仍然是一个长期存在的问题。
本研究表明,在某些条件下,可以信任并利用超出数据集的适度泛化来提升性能。为恰当利用适度泛化,我们为离线强化学习提出了“双重适度泛化”(Doubly Mild Generalization, DMG),包括:(i) 适度动作泛化和 (ii) 适度泛化传播。前者指选择数据集附近的动作以最大化 Q 值。然而,仅仅利用适度动作泛化仍不足以有效规避潜在的错误泛化,这些错误可能通过引导过程传播、积累并加剧。为解决这一问题,我们提出了一个新的概念——适度泛化传播,旨在减少泛化传播的同时保留强化学习信号的传播。关于 DMG 的实现,本研究提出了一种简单但有效的方案。具体来说,我们在贝尔曼目标中融合了适度泛化的最大值和样本内最大值,其中前者通过针对高价值样本内动作的正则化的行为者-评论者(actor-critic)学习实现,后者则通过样本内学习技术(如期望回归 [37])实现。
我们对 DMG 方法在理想泛化和最坏泛化场景下进行了深入的理论分析。在理想泛化条件下,DMG 能够保证比数据集中样本内最优策略更好的性能 [38, 37]。即使在最坏泛化情况下,DMG 仍然可以对价值函数的高估进行上界控制,并保证输出具有性能下界的安全策略。从实证角度看,DMG 在标准离线强化学习基准任务 [16] 上实现了当前最优性能,包括 Gym-MuJoCo 的运动任务和具有挑战性的 AntMaze 任务。此外,得益于其在两种泛化方面的灵活性,DMG 能够实现从离线到在线学习的无缝过渡,并在在线微调中取得卓越的性能。
双重适度泛化用于离线强化学习
离线强化学习中的泛化问题
离线强化学习的训练通常涉及贝尔曼更新与泛化之间的复杂交互 [47]。离线强化学习算法通过不同的更新机制来训练 Q 函数。在此,我们将贝尔曼更新的通用形式表示为,其中是动作空间中的一个分布。
在离线训练中,贝尔曼更新仅在上执行,而 的值仅通过泛化受到影响。一个关键点是,贝尔曼目标中的 是否出现在数据集中取决于 的选择。因此,贝尔曼更新与泛化表现出复杂的交互关系:
-
对 的更新通过泛化影响 的值;
-
而 的值又参与贝尔曼目标的计算,从而进一步影响 的值。
这种交互关系带来了离线强化学习中的一个关键挑战——价值高估。由复杂泛化引起的 的潜在价值高估,往往通过最大化操作不恰当地被捕获,这种现象被称为最大化偏差 [73]。这种高估通过贝尔曼更新传播到 的值,并通过泛化进一步扩展到 的值。这一循环过程不断放大价值高估,可能导致价值发散。这一有害过程的核心可以总结为过度泛化。
为了解决价值高估,近年来该领域提出了一种被称为样本内学习(in-sample learning)的范式,该方法仅使用数据集中存在的动作来构造贝尔曼目标 [37, 85, 92, 88, 21]。其效果相当于在 中选择 为 ,即数据集中观察到的经验行为策略。通过样本内价值学习,策略通过加权行为克隆从学习到的 Q 函数中提取 [57, 9, 55]。通过完全规避离线强化学习训练中的泛化,它们有效地避免了外插误差 [19],这一策略我们称为“非泛化”(non-generalization)。然而,泛化能力是神经网络广泛应用的关键因素之一 [41]。从这个角度来看,样本内学习方法在没有利用泛化的情况下显得过于保守,特别是当离线数据集未涵盖大规模或连续空间中的最优动作时。
双重适度泛化
以下部分将重点讨论在离线强化学习中适当利用泛化。
我们首先分析在通用备份操作符 下的泛化效果。我们考虑一个简单的场景,其中 通过在单个 上进行一次梯度更新得到 ,学习率为 。我们将结果泛化效应描述为对任何 的影响,如下所示。
定理 1(非正式):在某些连续性条件下,当学习率 足够小,且 足够接近 时,以下等式成立:
其中 ,且 是一个有界常数。
定理 1 显示,在某些连续性条件下,Q 函数可以很好地进行泛化,并在数据集样本的近邻中近似真实的更新。这意味着,超出数据集的适度泛化可以被利用,以潜在地追求更好的性能。受定理 1 启发,我们定义了一个适度泛化的策略 ,如下所示。
定义 1(适度泛化策略):若策略 满足以下条件,则称其为适度泛化策略:
其中, 是在离线数据集中观察到的经验行为策略。
然而,即使在这个适度泛化的区域内,学习到的价值函数仍然不可避免地会产生一定程度的泛化误差。如第 3.1 节所述,可能的错误泛化仍然会通过价值引导传播并加剧。为此,我们引入了一个额外层次的适度泛化,称为适度泛化传播,并提出了一种新颖的双重适度泛化(Doubly Mild Generalization, DMG)操作符,如下所示。
定义 2:双重适度泛化(Doubly Mild Generalization, DMG)操作符定义为:
其中, 是数据集中的经验行为策略,而 是一个适度泛化的策略。
请注意,在典型的离线强化学习算法中,由于错误泛化引起的外插误差和价值高估是通过引导传播的,并且该过程的折扣因子为 。DMG 将这个折扣因子减少为 ,从而减轻了价值高估的放大作用。另一方面,与样本内方法不同,DMG 允许适度泛化,利用神经网络的泛化能力来追求更好的性能。正如定理 1 所示,在适度泛化区域内,价值函数很可能会很好地进行泛化。
总而言之,DMG 的泛化在两个方面是适度的:
(i) 适度动作泛化:基于适度泛化策略 ,该策略超出了 ,DMG 在贝尔曼目标的第一部分选择数据集附近的动作,以最大化 Q 值; (ii) 适度泛化传播:DMG 通过将适度泛化的最大值与样本内最大值融合在贝尔曼目标中,减轻了泛化传播,而不妨碍强化学习信号的传播。这通过减少泛化传播的折扣因子,减轻了引导过程中由价值高估引起的放大效应。
理想泛化
定理 2(收敛性):在假设 1 下, 是适度泛化区域 下的 -收敛操作符,且在 范数下成立。因此,通过反复应用 ,任何初始的 Q 函数都可以收敛到唯一的固定点 。
我们将 所诱导的策略记为 ,其性能保证如下:
定理 3(性能):在假设 1 下,策略 和 的价值函数满足:
定理 3 表明,在理想泛化条件下,DMG 学到的策略可以比样本内最优策略取得更好的性能。
最坏情况泛化
本节转向最坏情况泛化场景的分析,在此场景下,学习到的价值函数可能在适度泛化区域 内表现出较差的泛化性能。换句话说,本节假设 仅在样本内区域 中定义,且学习到的价值函数在其他状态-动作对上可能存在任何泛化误差。在这种情况下,我们使用符号 来区分。
定理 4(有限高估):在假设 2 下,通过迭代 学习到的 DMG 的 Q 函数满足以下不等式:
由于样本内训练消除了外推误差 [37, 92],因此 可以被视为相对准确的估计 [37]。因此,定理 4 表明,在最坏情况泛化场景下,DMG 表现出有限的价值高估。此外,随着 (适度动作泛化)和 (适度泛化传播)的减小,界限变得更加紧密。这与我们在第 3.2 节中的直觉一致。
最后,我们在定理 5 中证明,即使在最坏情况泛化下,DMG 仍然能保证输出一个安全的策略,并提供性能下界。
定理 5(性能下界):令 为通过迭代 学到的 DMG 策略, 为最优策略, 为样本内最优策略的固有性能差距,定义为 。在假设 2 和 3 下,对于足够小的 ,我们有:
其中, 是一个正的常数。
实际算法
策略学习:在实际应用中,我们期望 DMG 展现出围绕数据集中的优良动作进行适度泛化的倾向。为此,我们首先考虑将经验行为策略 进行重新塑造,使其倾向于高优势值的动作,即 是优势函数。接着,我们强制约束训练策略与重新塑造后的行为策略之间的接近性,从而限制泛化区域。我们将泛化集 定义如下。
请注意,前向 KL 散度允许策略 选择在 支持范围之外的动作,从而使得 能够超越数据集中的动作进行泛化。定义了 之后,下一步是计算 内的最大 值。为此,我们采用 Actor-Critic 风格的训练方法 [70] 来实现这一部分。
通过将约束项作为惩罚项,我们最大化以下目标函数:
价值学习:关于 中的 ,可以使用任何样本内学习技术来计算样本内的最大值 [37, 88, 85, 21]。特别地,基于 IQL [37],我们执行期望回归(expectile regression)。
其中,,并且 。对于 , 可以捕捉到样本内的最大 值 [37]。最终,我们得到了以下的价值训练损失:
实验
在本节中,我们进行了一些实验以验证所提方法 DMG 的有效性。实验细节和扩展结果分别提供在附录 C 和 D 中。
离线 RL 基准上的主要结果
任务:我们在 Gym-MuJoCo 运动任务和 D4RL 中具有挑战性的 AntMaze 任务上评估了所提方法[16]。后者涉及稀疏奖励任务,需要“拼接”子最优轨迹的片段,沿着无向路径寻找通往迷宫目标的路径。
基准方法:我们的离线 RL 基准包括典型的引导方法和样本内学习方法。对于前者,我们与 BCQ [19]、BEAR [38]、AWAC [55]、TD3BC [17] 和 CQL [39] 进行了比较。对于后者,我们与 BC [58]、OneStepRL [7]、IQL [37]、QL [21] 和 SQL [88] 进行了比较。我们还包括了序列建模方法 DecisionTransformer (DT) [8]。
表 2:在 Gym 运动任务和 AntMaze 任务上,基于五个随机种子的平均归一化得分。 m = medium,m-r = medium-replay,m-e = medium-expert,e = expert,r = random;u = umaze,u-d = umaze-diverse,m-p = medium-play,m-d = medium-diverse,l-p = large-play,l-d = large-diverse。
与基准方法的比较:汇总结果显示在表 2 中。在 Gym 运动任务中,DMG 在大多数任务上超越了先前的方法,并取得了最高的总得分。在更具挑战性的 AntMaze 任务中,DMG 以较大优势超越了所有基准方法,特别是在最困难的大型迷宫中。有关详细的学习曲线,请参阅附录 D.3。根据 [56],我们还报告了 DMG 在更多随机种子上的结果,详细信息请参见附录 D.2。
运行时间:我们在 GeForce RTX 3090 上测试了 DMG 和其他基准方法的运行时间。如附录 D.1 所示,DMG 的运行时间与最快的离线 RL 算法 TD3BC 相当。
相较于样本内学习方法的性能提升
DMG 可以与各种样本内学习方法结合使用。除了 IQL [37],我们还将 DMG 应用于两个最近的最先进样本内算法,QL [21] 和 SQL [88]。如表 3(和表 2)所示,DMG 始终且显著地提升了这些样本内方法的表现,特别是在子最优数据集上,在这些情况下,泛化在追求更好的策略中起着至关重要的作用。
表 3:DMG 与各种样本内方法结合使用,显示了 5 次种子的平均得分。
结论与局限性
本文从泛化的角度审视了离线 RL,并提出了 DMG,包含温和的动作泛化和温和的泛化传播,以适当地利用离线 RL 中的泛化。我们在 oracle 和最坏情况泛化场景下对 DMG 进行了理论分析,并在离线训练和在线微调实验中实证展示了其最先进的性能。
尽管我们的工作提供了有价值的见解,但也存在局限性。DMG 原则在大多数场景下是有效的。然而,当所使用的函数逼近器与特定任务设置高度兼容时,学习到的价值函数可能会在整个动作空间中很好地进行泛化。在这种情况下,由于保守性,DMG 可能会表现得不如完全泛化方法。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。