qq_42401991-CSDN博客

转载 ICLR 2025 Spotlight | SmODE: 神经常微分网络让深度强化学习的控制更加丝滑！

这种设计不仅能够实现自适应的低通滤波，还具备对Lipschitz常数的有效控制，从而增强了神经元对输入扰动的抑制能力，并实现了更为平滑的输出。作为一种策略网络，与传统的多层感知机和LipsNet相比，SmODE在控制动作输出的平滑性方面表现出色，显著提升了各种强化学习任务中的平均回报。基于这种特殊性质的神经元，我们构建了平滑神经网络（Smooth Ordinary Differential Equations, SmODE）作为强化学习的策略网络，在保证强化学习任务性能的同时，显著提高了输出动作的平滑性。

2025-03-12 23:08:30 120

转载 NeurIPS 2024 论文速递| DACER：扩散模型与在线强化学习强强联合创造新SOTA

受到Kaiming He[3]启发，扩散模型的表示能力主要来源于反向扩散过程而非正向，因此我们将扩散模型的反向过程重新概念化为一种新的策略近似函数，利用其强大的表示能力来提升RL算法的性能。最后，我们使用估计的熵来平衡扩散策略在训练过程中的探索与利用。为了解决这一问题，我们采用高斯混合模型（GMM）来估计熵，从而促进了关键参数α的学习，该参数通过调节动作输出中的噪声方差来实现探索和利用的平衡。相比于DSAC，我们的方法学习到了更优的策略表示，这主要得益于采用扩散模型来参数化策略，而非传统的MLP。

2024-12-30 22:22:19 121

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人