RL夏令营第4讲回顾--Model-based

最新推荐文章于 2024-04-10 10:45:13 发布

花_哥

最新推荐文章于 2024-04-10 10:45:13 发布

阅读量360

点赞数

本文链接：https://blog.csdn.net/weixin_42988382/article/details/108550930

版权

Model-based和Model-free方法对比

Model-based：

Model-free：

在这里插入图片描述
先通过Q值和policy来和真实环境产生动作的交互，并且从环境中得到真实轨迹的数据（experience）。然后通过构建model得到转移概率和奖励函数，再从虚拟环境中采样数据。最后利用采样数据来更新Q值和policy。

在这里插入图片描述
Q-planning算法的基础是一个Q表，Q表存储的是 $(S, A, R, S^{'})$ 这样的四元组。

Dyna-Q算法是off-policy算法和on-policy算法的结合：
在这里插入图片描述
即这里还利用了与真实环境交互得到的数据来对Q表进行了更新

对于算法的介绍如下：

随机初始化一个状态 $S$ ；
利用 $Q$ 函数和现有的状态 $S$ ，以及 $\epsilon-greedy$ 策略来得到动作 $A$ ；
执行动作 $A$ ，以及观察执行后相应的 $R$ 和 $S^{'}$ ；
根据最新的采样直接利用Q-learning算法进行Q值的更新；
利用得到的 $R, S^{'}$ 来更新 $M o d e l (S, A)$ ，( $M o d e l (S, A)$ 的更新方式可以利用类似监督学习的方法，即给定 $(S, A)$ 来预测 $(R, S^{'})$ )；
重复n次：
1. 随机采样一个状态 $S$ ;
2. 随机采样一个在状态 $S$ 下做过的动作；
3. 根据 $M o d e l (S, A^{'})$ 来得到虚拟环境下的奖励 $R, S^{'}$ ;
4. 根据Q-learning来对Q表进行更新。

在这里插入图片描述
这是Dyna-Q算法在简单的Maze环境下的收敛情况，我们可以看到在n取的越大的时候，Agent的收敛性越好。

关注