强化学习笔记

强化学习入门 第二讲 基于模型的动态规划方法

https://zhuanlan.zhihu.com/p/25580624

 

其中的举例:

的理解为:

时刻k=2时,状态1的价值,等于:

π_2(状态1) 

= π(向东|状态1) * ( 状态1的回报 + //-1
                    衰减因子 * (状态1下,执行向东,变成状态0的概率  *  时刻k=1时,状态0的回报) + //概率为0
                    衰减因子 * (状态1下,执行向东,变成状态1的概率  *  时刻k=1时,状态1的回报) + //概率为0
                    衰减因子 * (状态1下,执行向东,变成状态2的概率  *  时刻k=1时,状态2的回报) + //概率为1, k=1时,状态2的回报是-1
                    ...
				   )
+ π(向南|状态1) * ( 状态1的回报 + //-1
                    衰减因子 * (状态1下,执行向南,变成状态0的概率  *  时刻k=1时,状态0的回报) + //概率为0
                    衰减因子 * (状态1下,执行向南,变成状态1的概率  *  时刻k=1时,状态1的回报) + //概率为0
                    衰减因子 * (状态1下,执行向南,变成状态2的概率  *  时刻k=1时,状态2的回报) + //概率为0
                    ...
                    衰减因子 * (状态1下,执行向南,变成状态5的概率  *  时刻k=1时,状态5的回报) + //概率为1, k=1时,状态5的回报是-1
                    ...
				   )
+ π(向北|状态1) * ( 状态1的回报 + //-1
                    衰减因子 * (状态1下,执行向北,变成状态0的概率  *  时刻k=1时,状态0的回报) + //概率为0
                    衰减因子 * (状态1下,执行向北,变成状态1的概率  *  时刻k=1时,状态1的回报) + //概率为1, 因为向北撞墙,所以还是回到状态1,k=1时,状态1的回报是-1
                    衰减因子 * (状态1下,执行向北,变成状态2的概率  *  时刻k=1时,状态2的回报) + //概率为0
                    ...
				   )
+ π(向西|状态1) * ( 状态1的回报 + //-1
                    衰减因子 * (状态1下,执行向西,变成状态0的概率  *  时刻k=1时,状态0的回报) + //概率为1, k=1时,状态0不属于网格世界(或称为属于终止状态),认为状态0的回报是0
                    衰减因子 * (状态1下,执行向西,变成状态1的概率  *  时刻k=1时,状态1的回报) + //概率为0
                    衰减因子 * (状态1下,执行向西,变成状态2的概率  *  时刻k=1时,状态2的回报) + //概率为0
                    ...
				   )
= 0.25*(-1 + 1*(1*-1))   +   0.25*(-1 + 1*(1*-1))   +   0.25*(-1 + 1*(1*-1))   +   0.25*(-1 + 1*(1*0))
= 0.25*(-1 -1)   +   0.25*(-1 -1)   +   0.25*(-1 -1)   +   0.25*(-1 -0)

 

小结:如下状态价值函数公式的理解为:

 

时刻k+1下,状态s的价值为:

状态s下,执行动作a的概率 * 

(状态s的即时回报(时刻k) *  衰减因子*

(执行a,变为状态s1的概率 * 时刻k下,s1的价值 + 执行a,变为状态s2的概率 * 时刻k下,s2的价值))

 

以此类推。 参考前面的举例来进行描述。 这里后续再整理一下。

 

其他课程:

Sutton教材《强化学习》

教材:http://incompleteideas.net/book/RLbook2018.pdf

课程代码:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

补充资料

https://github.com/dennybritz/reinforcement-learning

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值