强化学习-学习笔记7 | Sarsa算法原理与推导

本文深入探讨了Sarsa算法,详细推导了TD目标,并介绍了算法过程,包括表格形式和神经网络形式的应用。通过Sarsa算法更新动作价值函数,以逼近真实的回报,适用于有限状态和动作的情况,同时也解释了它与其它价值学习方法的区别。
摘要由CSDN通过智能技术生成

🚀 优质资源分享 🚀

学习路线指引(点击解锁) 知识定位 人群定位
🧡 Python实战微信订餐小程序 🧡 进阶级 本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。
💛Python量化交易实战💛 入门级 手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

Sarsa算法 是 TD算法的一种,之前没有严谨推导过 TD 算法,这一篇就来从数学的角度推导一下 Sarsa 算法。注意,这部分属于 TD算法的延申。

7. Sarsa算法

7.1 推导 TD target

推导:Derive。

这一部分就是Sarsa 最重要的内核。

折扣回报:Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+⋯ =Rt+γ⋅Ut+1Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+⋯ =Rt+γ⋅Ut+1U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots \ \quad={R_t} + \gamma \cdot U_{t+1}

即 将Rt+1Rt+1R_{t+1}之后 都提出一个 γγ\gamma 项,后面括号中的式子意义正为 Ut+1Ut+1U_{t+1}

通常认为奖励 RtRtR_t依赖于 t 时刻的状态 StStS_t 与 动作 AtAtA_t 以及 t+1 时刻的状态 St+1St+1S_{t+1}。

当时对于为什么依赖于 Qπ(st,at)=E[Ut|st,at]’ role=“presentation”>Qπ(st,at)=E[Ut|st,at]Qπ(st,at)=E[Ut|st,at]Q_\pi({s_t},{a_t}) = \ma

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

[虚幻私塾】

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值