强化学习-学习笔记7 | Sarsa算法原理与推导

最新推荐文章于 2024-12-12 10:09:23 发布

[虚幻私塾】

最新推荐文章于 2024-12-12 10:09:23 发布

阅读量769

点赞数

分类专栏： python 文章标签：学习算法 python 计算机

本文链接：https://blog.csdn.net/m0_56069948/article/details/125656786

版权

本文深入探讨了Sarsa算法，详细推导了TD目标，并介绍了算法过程，包括表格形式和神经网络形式的应用。通过Sarsa算法更新动作价值函数，以逼近真实的回报，适用于有限状态和动作的情况，同时也解释了它与其它价值学习方法的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🚀 优质资源分享 🚀

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

Sarsa算法是 TD算法的一种，之前没有严谨推导过 TD 算法，这一篇就来从数学的角度推导一下 Sarsa 算法。注意，这部分属于 TD算法的延申。

7. Sarsa算法

7.1 推导 TD target

推导：Derive。

这一部分就是Sarsa 最重要的内核。

折扣回报：Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+⋯ =Rt+γ⋅Ut+1Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+⋯ =Rt+γ⋅Ut+1U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots \ \quad={R_t} + \gamma \cdot U_{t+1}