RLAI-第六章-TD-Sarsa(0)实践

最新推荐文章于 2022-03-26 19:48:00 发布

cuixuange

最新推荐文章于 2022-03-26 19:48:00 发布

阅读量264

点赞数

分类专栏： machine-learning 强化学习基础文章标签： RlAI TemporalDifference

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014297722/article/details/82389574

版权

machine-learning 同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

强化学习基础

18 篇文章 1 订阅

订阅专栏

TD思想中的Sarsa实现
https://zhuanlan.zhihu.com/p/28133594

Sarsa是on-policy的 action初始拥有自己的策略d 我们需要优化策略π

初始情况
1.终止点Reward=1,否则Reward=-1
2.Sarsa需要维护Q(s,a)即state-value函数。在状态S下采取动作A能获取对应value

目的
Agent遵循着某一个策略选择Action,得到Env的反馈信息(Reward+S’变化),来优化策略

公式
1.γ=0.9
2.α=0.1
3.V(St) <== V(St) + α * {Rt+1 + γ*V(St+1) -V(st)}
其中VSt+1 通过e-greedy策略选择 MaxQ
3.1. VSt+1区别DP的转移概率
3.2. e-greedy优化 == 随着迭代次数的增加,随机Action的概率越来越小

trick
1.Q表字典套字典 key:state value:{key:action value:State-action的价值}
2.区别 QLearning计算VSt 不使用随机action 完全依赖Max Q
Qlearning V(St) <== V(St) + α * {Rt+1 + γ*Max(V(St+1,a)) -V(st)}

参考:https://zhuanlan.zhihu.com/p/28133594
参考:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
mycode: https://github.com/cuixuage/Reinforcement_Learning/tree/master/code_RLAI

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。