近期,扩散模型与强化学习的结合成为人工智能领域的热门研究方向,一系列创新成果在顶会和顶刊上发表,引起了广泛关注。
清华大学智能驾驶课题组在NeurIPS 2024上发表的《Diffusion Actor-Critic with Entropy Regulator》提出了一种创新的扩散模型反向过程,将其作为策略优化的工具,显著提升了强化学习算法的性能。上海科技大学YesAI Lab发表的《Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization》引入了Q变分训练,打破了扩散模型与在线强化学习结合的瓶颈,极大地提高了算法的样本效率和最终表现。
这些研究不仅展示了扩散模型在强化学习中的强大潜力,还为未来的研究提供了新的方向和思路。我整理了8篇关于【扩散模型+强化学习】的相关论文,全部论文PDF版,工中号 沃的顶会 回复“扩散强化”即可领取。
Diffusion Q-Learning Learning Decision Policies with Diffusion Models
文章解析
该论文提出了一种结合扩散模型(Diffusion Models)和强化学习(Q-Learning)的新方法,用于学习决策策略。
通过利用扩散模型的生成能力,该方法能够生成高质量的动作序列,从而提高强化学习算法的性能。
创新点
扩散模型与强化学习的结合:首次将扩散模型用于强化学习中的动作生成,通过去噪扩散过程优化策略,显著提升了策略的稳定性和性能。
能量模型的应用:引入能量模型来评估动作的合理性,通过能量优化找到更“合理”的动作,帮助模型生成高质量的动作序列。
InfoNCE损失:使用InfoNCE损失帮助模型区分“好”动作和“坏”动作,增强模型的学习效果。
研究方法
扩散模型的训练:通过去噪过程学习一种条件概率分布,让模型根据观察条件生成合理的动作序列。
能量模型:在去噪的每一步,模型计算当前动作的能量梯度,并沿着降低能量的方向调整动作。
InfoNCE损失:通过将“好”动作和多个“坏”动作进行比较,使得模型更倾向于选择符合演示的动作。
研究结论
实验结果表明,该方法在多个机器人操控任务中表现出色,显著优于现有的强化学习方法。
在动作序列复杂且变化率较高的任务中,扩散模型的优势更加明显。
该方法在实时推理中也表现出色,通过加速技巧确保了模型的实时性。
Reinforcement Learning with Diffusion Models
文章解析
该论文提出了一种新的离线强化学习(Offline RL)算法——Diffusion Q-Learning(Diffusion-QL),该算法利用扩散模型(Diffusion Models)表示策略,显著提升了策略的表达能力和性能。
Diffusion-QL通过学习动作价值函数,并在条件扩散模型的训练损失中加入最大化动作价值的项,从而优化策略。
创新点
扩散模型作为策略表示:首次将扩散模型用于强化学习中的策略表示,显著提升了策略的表达能力。
结合行为克隆和策略改进:通过行为克隆和策略改进的耦合,Diffusion-QL在离线强化学习任务中表现出色。
优化动作价值函数:在条件扩散模型的训练损失中加入最大化动作价值的项,优化策略。
研究方法
扩散模型训练:利用条件扩散模型生成高质量的动作序列,通过去噪过程学习动作的条件概率分布。
动作价值函数学习:学习动作价值函数,并将其与扩散模型的训练损失相结合,优化策略。
实验验证:在简单的2D多模态行为策略强化学习任务中验证了Diffusion-QL的优越性,并在D4RL基准测试任务上取得了最先进的性能。
研究结论
实验结果表明,Diffusion-QL在多个离线强化学习任务中表现出色,显著优于现有的方法。
该方法不仅在策略表达能力上具有优势,还在样本效率和策略性能上取得了显著提升。