RLAI-第三章-gridWorld实践

第三讲 方格世界 DP

初始情况
1.只有移动到指定位置,Reward=1.否则Reward=-1
2.States-space(4*4 终止的方格+非终止)
3.Action-space(n,e,s,w)
4.转移概率(1/4 感觉这就是相当于指定Action的策略)
5. 折扣因子γ=1

目的
给定某一策略(比如转移概率),计算每一个方格最终的状态价值

公式
1.γ=1
2.Q(S) = Sum( P * (Reward + γ*Q’(S’,a)) P是采用动作a的概率(本题有东南西北四个可能动作)
异步更新
特别注意下Q(S’,a)是不是真正意义上的尚未发生的价值–关键点2
3.更新Q

idea
通过收敛的状态价值表 得到最优策略

关键点
1.如果无法获取一个状态的所有可能后续(one-step)状态,那么就不能使用动态规划算法来求解
2.异步更新价值的方法,即某一时刻状态的价值由前一时刻状态价值来计算

参考: https://zhuanlan.zhihu.com/p/28109312
参考: https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
my code: https://github.com/cuixuage/Reinforcement_Learning/tree/master/code_RLAI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值