强化学习异步动态规划

Older司机渣渣威

于 2023-11-08 08:15:00 发布

阅读量96

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/ahah12345678/article/details/134223811

版权

到目前为止，我们讨论的DP(动态规划)方法有一个主要缺点。这些方法需要操作整个MDP的状态集，也就是说，它们需要遍历所有的状态。但是，如果状态集非常大，那么这种遍历可能会非常耗时。比如说，双陆棋游戏有超过10^20个状态。即使我们每秒可以对一百万个状态执行价值迭代回溯，完成一次遍历也需要超过一千年的时间。

异步DP算法是一种就地迭代的DP算法，它们不是按照系统的顺序来遍历状态集的。这些算法可以以任何顺序回溯状态的值，使用任何其他可用的状态的值。在回溯其他状态的值之前，一些状态的值可能会被回溯多次。但是，为了保证算法正确收敛，异步算法必须持续回溯所有状态的值，不能在某个时间点之后忽略任何状态。这种算法在选择需要应用回溯操作的状态时具有很大的灵活性。

比如，有一种异步值迭代算法，在每一步都会使用一个单独的状态sk来进行回溯操作，使用的是值迭代回溯方法。如果0 ≤ γ < 1，只要所有的状态在序列{sk}中都出现无限次（这个序列可以是随机的），那么就可以保证算法收敛到v∗。（需要注意的是，在独立情况下，有些回溯顺序可能不会导致收敛，但这些问题相对容易避免。）另外，也可以将策略评估和值迭代回溯结合起来，形成一种异步截断策略迭代。虽然这部分和其他更复杂的DP算法超出了讨论范围，但重要的是，这些不同的回溯方法可以作为构建块，灵活地应用在各种无需扫描整个状态集的DP算法中。

当然，避免遍历并不意味着我们可以减少计算量。这只是意味着在改进策略之前，我们不需要进行冗长无望的遍历操作。我们可以利用这种灵活性选择需要回溯的状态，以加快算法的进步速度。我们也可以尝试对回溯进行排序，让值信息从一个状态有效地传播到另一个状态。有些状态可能不需要像其他状态那样频繁地回溯其值。如果某些状态与最优行为无关，我们甚至可以尝试完全跳过回溯它们。

此外，异步算法也使得计算和实时交互可以同时进行。为了解决给定的MDP问题，我们可以同时运行一个迭代的DP算法，与此同时，智能体也在体验MDP。智能体的经验可以用来确定需要应用DP算法回溯的状态。同时，DP算法的最新值和策略信息也可以指导智能体的决策。比如说，我们可以在智能体访问某个状态时进行回溯操作。这使得DP算法的回溯可以集中在与智能体最相关的状态集部分。这种集中关注的做法是强化学习中的一种常见策略。

Older司机渣渣威

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫