David Sliver强化学习课程第三讲笔记总结

DS-3

如何解决形式化后的MDP

 

动态:对于问题来说是序列的或时序的

规划:策略

动态规划:将复杂问题分解为子问题,将子问题的答案进行结合得到原问题的解

适用于:

①最优化结构:原问题可以分解为两个及以上的子问题,并通过对子问题的最优化求解来获得原问题的最优解——最短路径;

②重叠子问题:子问题是不断重复的,子问题可以被多次重复使用

MDP符合上述两个特征,另外贝尔曼方程是一种递归组合,值函数记录了目前状态的最优值信息

 

动态规划假设了对MDP的全部知识,

预测:拥有MDP的全部知识和策略,进行策略评估

控制:优化问题,拥有MDP的全部知识,但不知道策略,目的是寻找最优策略

 

策略估计:

使用贝尔曼期望方程来评估策略,使用贝尔曼最优方程解决控制问题。

同步备份,每次迭代会用到所有的状态

根据上一轮迭代的旧的估计来更新这一轮迭代的估值

 

策略迭代:①计算当前策略值函数(策略估计);②提升策略

通常都会收敛至一个最优策略

最优策略的定义:任何满足贝尔曼最优方程的策略即为最优策略

 

值迭代:不断计算值函数,更新

每个value并不一定是真实策略的value,可能只是中间步骤

直接使用argmax则表示使用了贝尔曼最优方程求解

 

同步的动态规划并不预先知道目标在哪,因此需要更新每一个状态,而不是从目标开始向后扫描更新

 

预测:解决给定策略求回报的问题,采用贝尔曼期望方程和迭代策略估计

控制:如何获得更多的回报,采用贝尔曼期望方程+贪心策略提升和策略迭代

控制:如何获得更多的回报,采用贝尔曼最优方程和值迭代

 

状态-值函数的时间复杂度O(mn2)

动作-值函数的时间复杂度O(m2n2)

其中m表示动作数,n表示状态数

 

异步更新状态有利于节省计算量

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值