强化学习笔记

最新推荐文章于 2024-05-27 16:46:38 发布

赶圩归来阿理理

最新推荐文章于 2024-05-27 16:46:38 发布

阅读量130

点赞数 1

分类专栏：强化学习

本文链接：https://blog.csdn.net/a274767172/article/details/94644252

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习入门第二讲基于模型的动态规划方法

https://zhuanlan.zhihu.com/p/25580624

其中的举例：

的理解为：

时刻k=2时，状态1的价值，等于：

π_2(状态1) 

= π(向东|状态1) * ( 状态1的回报 + //-1
                    衰减因子 * (状态1下，执行向东，变成状态0的概率  *  时刻k=1时，状态0的回报) + //概率为0
                    衰减因子 * (状态1下，执行向东，变成状态1的概率  *  时刻k=1时，状态1的回报) + //概率为0
                    衰减因子 * (状态1下，执行向东，变成状态2的概率  *  时刻k=1时，状态2的回报) + //概率为1， k=1时，状态2的回报是-1
                    ...
				   )
+ π(向南|状态1) * ( 状态1的回报 + //-1
                    衰减因子 * (状态1下，执行向南，变成状态0的概率  *  时刻k=1时，状态0的回报) + //概率为0
                    衰减因子 * (状态1下，执行向南，变成状态1的概率  *  时刻k=1时，状态1的回报) + //概率为0
                    衰减因子 * (状态1下，执行向南，变成状态2的概率  *  时刻k=1时，状态2的回报) + //概率为0
                    ...
                    衰减因子 * (状态1下，执行向南，变成状态5的概率  *  时刻k=1时，状态5的回报) + //概率为1， k=1时，状态5的回报是-1
                    ...
				   )
+ π(向北|状态1) * ( 状态1的回报 + //-1
                    衰减因子 * (状态1下，执行向北，变成状态0的概率  *  时刻k=1时，状态0的回报) + //概率为0
                    衰减因子 * (状态1下，执行向北，变成状态1的概率  *  时刻k=1时，状态1的回报) + //概率为1， 因为向北撞墙，所以还是回到状态1，k=1时，状态1的回报是-1
                    衰减因子 * (状态1下，执行向北，变成状态2的概率  *  时刻k=1时，状态2的回报) + //概率为0
                    ...
				   )
+ π(向西|状态1) * ( 状态1的回报 + //-1
                    衰减因子 * (状态1下，执行向西，变成状态0的概率  *  时刻k=1时，状态0的回报) + //概率为1， k=1时，状态0不属于网格世界（或称为属于终止状态），认为状态0的回报是0
                    衰减因子 * (状态1下，执行向西，变成状态1的概率  *  时刻k=1时，状态1的回报) + //概率为0
                    衰减因子 * (状态1下，执行向西，变成状态2的概率  *  时刻k=1时，状态2的回报) + //概率为0
                    ...
				   )
= 0.25*(-1 + 1*(1*-1))   +   0.25*(-1 + 1*(1*-1))   +   0.25*(-1 + 1*(1*-1))   +   0.25*(-1 + 1*(1*0))
= 0.25*(-1 -1)   +   0.25*(-1 -1)   +   0.25*(-1 -1)   +   0.25*(-1 -0)

小结：如下状态价值函数公式的理解为：

时刻k+1下，状态s的价值为：

状态s下，执行动作a的概率 *

（状态s的即时回报（时刻k） * 衰减因子*

（执行a，变为状态s1的概率 * 时刻k下，s1的价值 + 执行a，变为状态s2的概率 * 时刻k下，s2的价值））

以此类推。参考前面的举例来进行描述。这里后续再整理一下。

其他课程：

Sutton教材《强化学习》

教材：http://incompleteideas.net/book/RLbook2018.pdf

课程代码：https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

补充资料

https://github.com/dennybritz/reinforcement-learning

赶圩归来阿理理

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记

强化学习入门第二讲基于模型的动态规划方法https://zhuanlan.zhihu.com/p/25580624其中的举例：的理解为：时刻k=2时，状态1的价值，等于：π_2(状态1) = π(向东|状态1) * ( 状态1的回报 + //-1 衰减因子 * (状态1下，执行向东，变成状态0的概率 * 时刻k=1...
复制链接

扫一扫