Datawhale深度强化学习打卡

最新推荐文章于 2024-01-16 13:44:12 发布

小白684

最新推荐文章于 2024-01-16 13:44:12 发布

阅读量134

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41560321/article/details/109249680

版权

Datawhale深度强化学习打卡

1.Markov决策过程两个重要函数

state-value function ：在这里插入图片描述 action-value function：
两者之间的关系：

2.寻找最佳策略的办法

2.1策略迭代：有两个步骤，第一步包括策略评估和策略优化，第二部进行策略的优化，代表算法是SARSA
2.2值迭代：一直只进行Bellman Optimality Equation，迭代出optimal value function后只做一次policy update。代表算法是Q-learning
对于Bellman 方程的求解主要有三种：
1.蒙特卡罗法，通过采样的方法去估计状态的期望值函数，但是必须到达终态才能得到状态s的值函数，因此更新过程非常缓慢，学习效率不高。当采样的次数足够的多（保证每一个可能的状态-动作都能被采样到）时，就可以最大程度的逼近状态的真实期望值函数。
2. 迭代算法（动态规划），在已知状态转换概率和回报函数的情况下，不需要与环境的交互，直接通过策略迭代或值迭代方法得到最优策略。
3. 以上两种的结合：时间差异学习方法（Temporal-Difference learning）结合动态规划的思想，可以实现单步更新，提升效率；结合蒙特卡洛的采样，可以避免对状态转换概率的依赖，通过采样估计状态的期望值函数。使得时序差分能够在缺少环境动态模型的情况下从原始经验中直接进行学习。

Q-learning代码学习

因为是从github下载的代码，已经是训练好的，运行结果一开始就达到了最佳reward 即-13
在这里插入图片描述结果图似乎跟以上结果不太对应，这部分还没搞清楚是怎么肥四

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale深度强化学习打卡

Datawhale深度强化学习打卡1.Markov决策过程两个重要函数state-value function ：action-value function：两者之间的关系：2.寻找最佳策略的办法2.1策略迭代：有两个步骤，第一步包括策略评估和策略优化，第二部进行策略的优化，代表算法是SARSA2.2值迭代：一直只进行Bellman Optimality Equation，迭代出optimal value function后只做一次policy update。代表算法是Q-learning
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。