Datawhale深度强化学习打卡

Datawhale深度强化学习打卡

1.Markov决策过程两个重要函数

state-value function :在这里插入图片描述action-value function:
在这里插入图片描述两者之间的关系:
在这里插入图片描述

2.寻找最佳策略的办法

2.1策略迭代:有两个步骤,第一步包括策略评估和策略优化,第二部进行策略的优化,代表算法是SARSA
2.2值迭代:一直只进行Bellman Optimality Equation,迭代出optimal value function后只做一次policy update。代表算法是Q-learning
对于Bellman 方程的求解主要有三种:
1.蒙特卡罗法,通过采样的方法去估计状态的期望值函数,但是必须到达终态才能得到状态s的值函数,因此更新过程非常缓慢,学习效率不高。当采样的次数足够的多(保证每一个可能的状态-动作都能被采样到)时,就可以最大程度的逼近状态的真实期望值函数。
2. 迭代算法(动态规划),在已知状态转换概率和回报函数的情况下,不需要与环境的交互,直接通过策略迭代或值迭代方法得到最优策略。
3. 以上两种的结合:时间差异学习方法(Temporal-Difference learning)结合动态规划的思想,可以实现单步更新,提升效率;结合蒙特卡洛的采样,可以避免对状态转换概率的依赖,通过采样估计状态的期望值函数。使得时序差分能够在缺少环境动态模型的情况下从原始经验中直接进行学习。

Q-learning代码学习

因为是从github下载的代码,已经是训练好的,运行结果一开始就达到了最佳reward 即-13
在这里插入图片描述结果图似乎跟以上结果不太对应,这部分还没搞清楚是怎么肥四
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值