RLAI-第六章-TD-Sarsa(0)实践

TD思想中的Sarsa实现
https://zhuanlan.zhihu.com/p/28133594

Sarsa是on-policy的 action初始拥有自己的策略d 我们需要优化策略π

初始情况
1.终止点Reward=1,否则Reward=-1
2.Sarsa需要维护Q(s,a)即state-value函数。在状态S下采取动作A能获取对应value

目的
Agent遵循着某一个策略选择Action,得到Env的反馈信息(Reward+S’变化),来优化策略

公式
1.γ=0.9
2.α=0.1
3.V(St) <== V(St) + α * {Rt+1 + γ*V(St+1) -V(st)}
其中VSt+1 通过e-greedy策略选择 MaxQ
3.1. VSt+1区别DP的转移概率
3.2. e-greedy优化 == 随着迭代次数的增加,随机Action的概率越来越小

trick
1.Q表 字典套字典 key:state value:{key:action value:State-action的价值}
2.区别 QLearning计算VSt 不使用随机action 完全依赖Max Q
Qlearning V(St) <== V(St) + α * {Rt+1 + γ*Max(V(St+1,a)) -V(st)}

参考:https://zhuanlan.zhihu.com/p/28133594
参考:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
mycode: https://github.com/cuixuage/Reinforcement_Learning/tree/master/code_RLAI

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值