强化学习之时间差分方法

最新推荐文章于 2022-05-12 21:28:07 发布

Walter_Silva

最新推荐文章于 2022-05-12 21:28:07 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/Gin077/article/details/82902501

版权

15 篇文章 0 订阅

订阅专栏

-（在此部分，我们讨论了估算动作值的 TD 预测算法。和 TD(0) 算法相似，该算法保证会收敛于真动作值函数，只要步长参数 \alphaα 足够小。）

Sarsa(0)（或 Sarsa）是既定策略 TD 控制方法。它保证会收敛于最优动作值函数 q_*q∗，只要步长参数 \alphaα足够小，并且所选的 \epsilonϵ 满足有限状态下的无限探索贪婪算法 (GLIE) 条件。

Sarsamax（或 Q 学习）是一种新策略 TD 控制方法。它会在保证 Sarsa 算法会收敛的相同条件下保证收敛于最优动作值函数 q_*q∗。

预期 Sarsa 是一种新策略 TD 控制方法。它会在保证 Sarsa 和 Sarsamax 算法会收敛的相同条件下保证收敛于最优动作值函数 q_*q∗。

在以下情况下，我们讨论过的所有 TD 控制算法（Sarsa、Sarsamax、预期 Sarsa）都会收敛于最优动作值函数 q_*q∗（并生成最优策略 \pi_*π∗）：(1)\epsilonϵ 的值根据 GLIE 条件逐渐降低，以及 (2) 步长参数 \alphaα 足够小。

这些算法之间的区别总结如下：

关注

专栏目录