NeurIPS新成果！扩散强化学习大突破，算法性能提升124.7%！

最新推荐文章于 2025-04-12 03:46:14 发布

沃恩智慧

最新推荐文章于 2025-04-12 03:46:14 发布

阅读量696

点赞数 9

分类专栏：机器学习深度学习人工智能文章标签：算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73122726/article/details/146036592

版权

人工智能同时被 3 个专栏收录

92 篇文章

订阅专栏

78 篇文章

订阅专栏

51 篇文章

订阅专栏

近期，扩散模型与强化学习的结合成为人工智能领域的热门研究方向，一系列创新成果在顶会和顶刊上发表，引起了广泛关注。

清华大学智能驾驶课题组在NeurIPS 2024上发表的《Diffusion Actor-Critic with Entropy Regulator》提出了一种创新的扩散模型反向过程，将其作为策略优化的工具，显著提升了强化学习算法的性能。上海科技大学YesAI Lab发表的《Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization》引入了Q变分训练，打破了扩散模型与在线强化学习结合的瓶颈，极大地提高了算法的样本效率和最终表现。

这些研究不仅展示了扩散模型在强化学习中的强大潜力，还为未来的研究提供了新的方向和思路。我整理了8篇关于【扩散模型+强化学习】的相关论文，全部论文PDF版，工中号沃的顶会 回复“扩散强化”即可领取。

Diffusion Q-Learning Learning Decision Policies with Diffusion Models

文章解析

该论文提出了一种结合扩散模型（Diffusion Models）和强化学习（Q-Learning）的新方法，用于学习决策策略。

通过利用扩散模型的生成能力，该方法能够生成高质量的动作序列，从而提高强化学习算法的性能。

创新点

扩散模型与强化学习的结合：首次将扩散模型用于强化学习中的动作生成，通过去噪扩散过程优化策略，显著提升了策略的稳定性和性能。

能量模型的应用：引入能量模型来评估动作的合理性，通过能量优化找到更“合理”的动作，帮助模型生成高质量的动作序列。

InfoNCE损失：使用InfoNCE损失帮助模型区分“好”动作和“坏”动作，增强模型的学习效果。

研究方法

扩散模型的训练：通过去噪过程学习一种条件概率分布，让模型根据观察条件生成合理的动作序列。

能量模型：在去噪的每一步，模型计算当前动作的能量梯度，并沿着降低能量的方向调整动作。

InfoNCE损失：通过将“好”动作和多个“坏”动作进行比较，使得模型更倾向于选择符合演示的动作。

研究结论

实验结果表明，该方法在多个机器人操控任务中表现出色，显著优于现有的强化学习方法。

在动作序列复杂且变化率较高的任务中，扩散模型的优势更加明显。

该方法在实时推理中也表现出色，通过加速技巧确保了模型的实时性。

Reinforcement Learning with Diffusion Models

文章解析

该论文提出了一种新的离线强化学习（Offline RL）算法——Diffusion Q-Learning（Diffusion-QL），该算法利用扩散模型（Diffusion Models）表示策略，显著提升了策略的表达能力和性能。

Diffusion-QL通过学习动作价值函数，并在条件扩散模型的训练损失中加入最大化动作价值的项，从而优化策略。

创新点

扩散模型作为策略表示：首次将扩散模型用于强化学习中的策略表示，显著提升了策略的表达能力。

结合行为克隆和策略改进：通过行为克隆和策略改进的耦合，Diffusion-QL在离线强化学习任务中表现出色。

优化动作价值函数：在条件扩散模型的训练损失中加入最大化动作价值的项，优化策略。

研究方法

扩散模型训练：利用条件扩散模型生成高质量的动作序列，通过去噪过程学习动作的条件概率分布。

动作价值函数学习：学习动作价值函数，并将其与扩散模型的训练损失相结合，优化策略。

实验验证：在简单的2D多模态行为策略强化学习任务中验证了Diffusion-QL的优越性，并在D4RL基准测试任务上取得了最先进的性能。

研究结论

实验结果表明，Diffusion-QL在多个离线强化学习任务中表现出色，显著优于现有的方法。
该方法不仅在策略表达能力上具有优势，还在样本效率和策略性能上取得了显著提升。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。