- 博客(4)
- 收藏
- 关注
原创 车辆学院团队在强化学习领域取得重要进展
为进一步改进该算法的迭代稳定性,并降低参数敏感度,团队提出了三项全新的值分布梯度修正技术,即Expected Value Substituting(EVS)、Twin Value Distribution Learning(TVDL)和Variance-Based Critic Gradient Adjustment(VCGA),并将其嵌入到第二代DSAC算法中(又称为DSAC-T)。目前,研究团队已将DSAC两代算法进行了开源,并集成于自主研发的GOPS工具链,以方便学术界与工业界验证与使用。
2025-05-29 10:28:15
906
原创 ICLR 2025 Spotlight | SmODE: 神经常微分网络让深度强化学习的控制更加丝滑!
这种设计不仅能够实现自适应的低通滤波,还具备对Lipschitz常数的有效控制,从而增强了神经元对输入扰动的抑制能力,并实现了更为平滑的输出。作为一种策略网络,与传统的多层感知机和LipsNet相比,SmODE在控制动作输出的平滑性方面表现出色,显著提升了各种强化学习任务中的平均回报。在系统时间常数固定的情况下,虽然较大的时间常数能够保证较好的平滑性,但也会引入额外的延时。考虑到对动作平滑性和高性能的追求可能存在一定的矛盾,因此并非在所有的实验设置中都能获得最佳的表现是可以理解的。,C是有界的正常数。
2025-03-13 13:33:36
1535
原创 NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA!
然而在大多数传统的在线强化学习算法中,策略函数通常被参数化为可学习的高斯分布,这限制了它们表达复杂策略的能力。通过利用扩散模型的反向去噪过程,DACER能够有效地学习多模态分布,使得创建更复杂的策略并提高策略性能成为可能。为展示DACER的多模态能力,我们选择了五个需要多模态策略的点:(0.5, 0.5)、(0.5, -0.5)、(-0.5, -0.5)、(-0.5, 0.5)和(0, 0)。相比于DSAC,我们的方法学习到了更优的策略表示,这主要得益于采用扩散模型来参数化策略,而非传统的MLP。
2024-12-31 02:16:50
793
原创 控制系统可控性检验理论的变革:从模型驱动到数据驱动
以模型驱动的控制系统为例,其可控性检验依赖于已知的动力学模型,这些模型可以在状态空间上提供系统行为的连续描述。对于数据驱动的控制系统(datatic control system),数据点只能给出离散化的系统行为描述,而数据点之间的系统信息无法直接得知,因此传统基于模型的可控性检验方法并不适用于数据驱动的控制系统。虽然模型驱动的控制系统在可控性检验理论上已相对完善,但对于数据驱动的控制系统,由于只能依赖离散数据点,系统行为描述的完整性受到限制,用于datatic system的可控性判定理论仍然是缺失的。
2024-11-21 10:27:57
1153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅