- 博客(1)
- 收藏
- 关注
原创 强化学习最优性条件的哈密顿动力学解释
为了扩展最大值原理中的协态变量,研究者将最优控制问题与带有非完整约束的拉格朗日力学系统建立了对偶关系。图1 最优控制与拉格朗日力学的对偶关系标题在这一定义下,状态变量和协态变量综上所述,研究分析了强化学习和最优控制领域中两个关键的最优性条件——庞特里亚金最大值原理(PMP)和哈密顿-雅可比-贝尔曼(HJB)方程之间的联系。通过将最优控制问题视为非完整拉格朗日系统,将协态变量重新定义为状态导数的Legendre变换,并在最优和非最优、开环和闭环控制等多种情况下,证明了价值函数与协态变量之间的内在等价性。
2025-04-18 09:18:29
636
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人