NeurIPS新成果!扩散强化学习大突破,算法性能提升124.7%!

近期,扩散模型与强化学习的结合成为人工智能领域的热门研究方向,一系列创新成果在顶会和顶刊上发表,引起了广泛关注。

清华大学智能驾驶课题组在NeurIPS 2024上发表的《Diffusion Actor-Critic with Entropy Regulator》提出了一种创新的扩散模型反向过程,将其作为策略优化的工具,显著提升了强化学习算法的性能。上海科技大学YesAI Lab发表的《Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization》引入了Q变分训练,打破了扩散模型与在线强化学习结合的瓶颈,极大地提高了算法的样本效率和最终表现。

这些研究不仅展示了扩散模型在强化学习中的强大潜力,还为未来的研究提供了新的方向和思路。我整理了8篇关于【扩散模型+强化学习】的相关论文,全部论文PDF版,工中号 沃的顶会 回复“扩散强化”即可领取。

Diffusion Q-Learning Learning Decision Policies with Diffusion Models

 文章解析 

该论文提出了一种结合扩散模型(Diffusion Models)和强化学习(Q-Learning)的新方法,用于学习决策策略。

通过利用扩散模型的生成能力,该方法能够生成高质量的动作序列,从而提高强化学习算法的性能。

 创新点 

扩散模型与强化学习的结合:首次将扩散模型用于强化学习中的动作生成,通过去噪扩散过程优化策略,显著提升了策略的稳定性和性能。

能量模型的应用:引入能量模型来评估动作的合理性,通过能量优化找到更“合理”的动作,帮助模型生成高质量的动作序列。

InfoNCE损失:使用InfoNCE损失帮助模型区分“好”动作和“坏”动作,增强模型的学习效果。

 研究方法 

扩散模型的训练:通过去噪过程学习一种条件概率分布,让模型根据观察条件生成合理的动作序列。

能量模型:在去噪的每一步,模型计算当前动作的能量梯度,并沿着降低能量的方向调整动作。

InfoNCE损失:通过将“好”动作和多个“坏”动作进行比较,使得模型更倾向于选择符合演示的动作。

 研究结论 

实验结果表明,该方法在多个机器人操控任务中表现出色,显著优于现有的强化学习方法。

在动作序列复杂且变化率较高的任务中,扩散模型的优势更加明显。

该方法在实时推理中也表现出色,通过加速技巧确保了模型的实时性。

image.png

Reinforcement Learning with Diffusion Models

 文章解析 

该论文提出了一种新的离线强化学习(Offline RL)算法——Diffusion Q-Learning(Diffusion-QL),该算法利用扩散模型(Diffusion Models)表示策略,显著提升了策略的表达能力和性能。

Diffusion-QL通过学习动作价值函数,并在条件扩散模型的训练损失中加入最大化动作价值的项,从而优化策略。

 创新点 

扩散模型作为策略表示:首次将扩散模型用于强化学习中的策略表示,显著提升了策略的表达能力。

结合行为克隆和策略改进:通过行为克隆和策略改进的耦合,Diffusion-QL在离线强化学习任务中表现出色。

优化动作价值函数:在条件扩散模型的训练损失中加入最大化动作价值的项,优化策略。

 研究方法 

扩散模型训练:利用条件扩散模型生成高质量的动作序列,通过去噪过程学习动作的条件概率分布。

动作价值函数学习:学习动作价值函数,并将其与扩散模型的训练损失相结合,优化策略。

实验验证:在简单的2D多模态行为策略强化学习任务中验证了Diffusion-QL的优越性,并在D4RL基准测试任务上取得了最先进的性能。

 研究结论 

实验结果表明,Diffusion-QL在多个离线强化学习任务中表现出色,显著优于现有的方法。
该方法不仅在策略表达能力上具有优势,还在样本效率和策略性能上取得了显著提升。

image.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值