强化学习异步动态规划

        

        到目前为止,我们讨论的DP(动态规划)方法有一个主要缺点。这些方法需要操作整个MDP的状态集,也就是说,它们需要遍历所有的状态。但是,如果状态集非常大,那么这种遍历可能会非常耗时。比如说,双陆棋游戏有超过10^20个状态。即使我们每秒可以对一百万个状态执行价值迭代回溯,完成一次遍历也需要超过一千年的时间。

        异步DP算法是一种就地迭代的DP算法,它们不是按照系统的顺序来遍历状态集的。这些算法可以以任何顺序回溯状态的值,使用任何其他可用的状态的值。在回溯其他状态的值之前,一些状态的值可能会被回溯多次。但是,为了保证算法正确收敛,异步算法必须持续回溯所有状态的值,不能在某个时间点之后忽略任何状态。这种算法在选择需要应用回溯操作的状态时具有很大的灵活性。

        比如,有一种异步值迭代算法,在每一步都会使用一个单独的状态sk来进行回溯操作,使用的是值迭代回溯方法。如果0 ≤ γ < 1,只要所有的状态在序列{sk}中都出现无限次(这个序列可以是随机的),那么就可以保证算法收敛到v∗。(需要注意的是,在独立情况下,有些回溯顺序可能不会导致收敛,但这些问题相对容易避免。)另外,也可以将策略评估和值迭代回溯结合起来,形成一种异步截断策略迭代。虽然这部分和其他更复杂的DP算法超出了讨论范围,但重要的是,这些不同的回溯方法可以作为构建块,灵活地应用在各种无需扫描整个状态集的DP算法中。

        当然,避免遍历并不意味着我们可以减少计算量。这只是意味着在改进策略之前,我们不需要进行冗长无望的遍历操作。我们可以利用这种灵活性选择需要回溯的状态,以加快算法的进步速度。我们也可以尝试对回溯进行排序,让值信息从一个状态有效地传播到另一个状态。有些状态可能不需要像其他状态那样频繁地回溯其值。如果某些状态与最优行为无关,我们甚至可以尝试完全跳过回溯它们。

        此外,异步算法也使得计算和实时交互可以同时进行。为了解决给定的MDP问题,我们可以同时运行一个迭代的DP算法,与此同时,智能体也在体验MDP。智能体的经验可以用来确定需要应用DP算法回溯的状态。同时,DP算法的最新值和策略信息也可以指导智能体的决策。比如说,我们可以在智能体访问某个状态时进行回溯操作。这使得DP算法的回溯可以集中在与智能体最相关的状态集部分。这种集中关注的做法是强化学习中的一种常见策略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Older司机渣渣威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值