本文介绍清华大学智能驾驶课题组(iDLab)在 NeurIPS 2024 发表的最新研究成果《Diffusion Actor-Critic with Entropy Regulator》。该算法创新性地将扩散模型的反向过程作为策略函数,使在线强化学习算法能够产生多模态动作分布。此外,本文提出了基于高斯混合模型的熵正则化方法,显著提升了算法的整体性能。该研究工作由清华大学2023级研究生王以诺在李升波教授指导下完成。
Arxiv地址:https://arxiv.org/pdf/2405.15177
代码链接:https://github.com/happy-yan/DACER-Diffusion-with-Online-RL
1 背景
在线强化学习(Online Reinforcement Learning, Online RL)作为人工智能领域解决复杂序列决策问题的核心方法之一,其应用范围持续扩展。在智能博弈、机器人控制及自动驾驶等传统应用领域取得显著成果的同时,强化学习技术正在大语言模型(Large Language Models, LLM)的微调优化、价值对齐及推理增强等关键环节发挥重要作用。然而在大多数传统的在线强化学习算法中,策略函数通常被参数化为可学习的高斯分布,这限制了它们表达复杂策略的能力。
扩散模型作为一种生成模型因其强大的拟合多模态分布能力而广为人知。它通过逐步添加和移除噪声来学习原始数据分布,在图像和视频生成领域表现出色。在RL中,策略网络可以被视为一种状态条件生成模型。Online RL通过与环境交互来学习控制策略,而Offline RL无需与环境互动,主要从先前收集的数据中学习策略[1]。在实际应用中,许多控制问题都有优秀的模拟器,使用Offline RL并不合适,因为具有互动能力的Online RL表现更佳。然而,扩散模型直接用于Online RL可能遇到的问题包括:
-
扩散模型的损失函数项本质上是一种模仿学习损失项,但与Offline RL不同,Online RL中并不存在可供模仿的数据;
-
扩散模型的反向过程无法进行解析求熵,这使得其难以与最大熵强化学习框架相结合,从而导致算法收敛性能不佳。
为了解决上述的问题,清华大学研究团队提出了一种基于扩散模型的在线强化学习算法 DACER(Diffusion Actor-Critic with Entropy Regulator)。我们将DACER建立在去噪扩散概率模型(DDPM)[2]的基础上。受到Kaiming He[3]启发,扩散模型的表示能力主要来源于反向扩散过程而非正向,因此我们将扩散模型的反向过程重新概念化为一种新的策略近似函数,利用其强大的表示能力来提升RL算法的性能。这个新策略函数的优化目标是最大化期望Q值。在RL中,最大化熵对于策略探索至关重要,但扩散策略的熵难以解析确定。因此,我们选择在固定间隔处采样动作,并使用**高斯混合模型(GMM)**来拟合动作分布,可计算每个状态下策略的近似熵。这些熵的平均值之后被用作当前扩散策略熵的近似。最后,我们使用估计的熵来平衡扩散策略在训练过程中的探索与利用。
2 DACER的关键技术
2.1 扩散策略表征
将条件扩散模型的反向过程用作参数化策略:
采样过程可以重新表述为:
2.2 扩散策略学习
在Online RL中,由于没有可供模仿的数据集,我们放弃了行为克隆项和模仿学习框架。策略学习的目标是最大化由扩散网络在给定状态下生成的动作的期望Q值:
此外,我们使用课题组提出的分布式Q学习[4]的方法来缓解值函数的过估计问题。然而,直接使用上述扩散策略学习方法进行训练时,会因策略动作过于确定性而导致性能不佳。
2.3 扩散策略与熵调节器
对于每个状态,我们使用扩散策略来采样N个动作,然后使用高斯混合模型(GMM)来拟合策略分布。我们可以通过以下方式估计对应于该状态的动作分布的熵[3]:
类似于最大化熵的RL,我们根据估计的熵学习一个参数α:
最终,我们使用下式在训练的采样阶段调整扩散策略的熵。熵调节机制是解锁探索潜能的关键。
综上所述,DACER算法的整体流程为
3 实验结果
下图为DACER与其他强化学习算法在MuJoCo[6]上的表现对比。图1和表1分别展示了学习曲线和性能策略。在所有评估的任务中,DACER算法始终与所有竞争基准算法的性能相匹配或超越。特别是在Humanoid-v3场景中,DACER相较于DDPG、TD3、PPO、SAC、DSAC和TRPO分别提升了124.7%、111.1%、73.1%、27.3%、9.8%和1131.9%。
为评估策略表征能力,我们将DACER与DSAC、TD3和PPO的性能进行了比较,结果如图2所示。可以看出,DACER的动作倾向于指向不同状态下的最近峰值。DACER的价值函数曲线显示了四个对称的峰值,与之前的分析相符合。相比于DSAC,我们的方法学习到了更优的策略表示,这主要得益于采用扩散模型来参数化策略,而非传统的MLP。相比之下,TD3和PPO的价值函数曲线难以学得四个对称的峰值[7]。总体而言,DACER展示了极佳的策略表征能力。
为展示DACER的多模态能力,我们选择了五个需要多模态策略的点:(0.5, 0.5)、(0.5, -0.5)、(-0.5, -0.5)、(-0.5, 0.5)和(0, 0)。对每个点采样100条轨迹,在图3中绘制。结果显示与DSAC相比,DACER展现了显著的多模态特性。这也解释了为什么只有DACER的Q函数能够学习到几乎完美对称的四个峰值。
在Humanoid-v3任务上,DACER、DSAC、SAC训练收敛后的可视化:
DACER
DSAC
SAC
4 总结
本研究中我们提出了一种基于扩散模型的在线强化学习算法 DACER(Diffusion Actor-Critic with Entropy Regulator),旨在克服传统强化学习方法在策略参数化中使用高斯分布的局限性。通过利用扩散模型的反向去噪过程,DACER能够有效地学习多模态分布,使得创建更复杂的策略并提高策略性能成为可能。一个显著的挑战来自于缺乏解析表达式来确定扩散策略的熵,使其难以与最大熵强化学习结合,导致性能不佳。为了解决这一问题,我们采用高斯混合模型(GMM)来估计熵,从而促进了关键参数α的学习,该参数通过调节动作输出中的噪声方差来实现探索和利用的平衡。在MuJoCo基准测试和多模态任务上的实证测试显示了DACER的优越性能。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。