【强化学习算法与动态规划】【强化学习算法在优化和控制问题中的应用】根据性能和效率对强化学习控制器进行了比较,并与经典线性二次调节器(LQR)控制器进行了单独比较(Matlab代码实现)
强化学习算法,如SARSA、Q学习、演员-评论者策略梯度和价值函数近似,已应用于稳定反向摆系统并实现最优控制。因此,强化学习控制器的概念已经建立。根据性能和效率对强化学习控制器进行了比较,并与经典线性二次调节器(LQR)控制器进行了单独比较。每个强化学习控制器都与一个摆动上升控制器集成在一起。一个虚拟开关根据相对于垂直平面的角偏差θ的值自动切换摆动上升控制器和强化学习控制器。文献1:强化学习算法在摆车问题中的比摘要——随着系统变得复杂和固有非线性,设计最优控制器仍然具有挑战性。



