蒙特卡洛树搜索方法介绍——算力聚焦方法(一) Dyna-Q+

静静的喝酒

已于 2022-08-05 15:33:59 修改

阅读量996

点赞数 2

分类专栏：强化学习文章标签：强化学习蒙特卡洛树搜索概率论

于 2022-08-04 22:45:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34758157/article/details/126156191

版权

蒙特卡洛树搜索方法介绍——算力聚焦方法之Dyna-Q+

引言

引言

上一节基于规划与学习的差异性介绍了 $Dy na - Q$ 架构的具体算法过程。但从真实环境的角度观察， $Dy na - Q$ 架构同样存在各种问题，本节从 $Dy na - Q$ 架构的问题出发，介绍算力聚焦的本质和具体的算力聚焦方法。

回顾：Dyna-Q角度观察规划与学习的结合过程

从 $Dy na - Q$ 角度观察规划与学习的结合过程：

学习过程 中，结合非终结状态 $S_t$ 和对应在 $Q - T ab l e$ 中的 $Q(S_t,a)(a \in \mathcal A(S_t))$ ，构建一个基于 $\epsilon-$ 贪心方法的策略 $\pi$ ；
从策略 $\pi$ 中选择一个动作—— $A_t$ ；
执行动作 $A_t$ ，通过状态转移过程，得到一组真实样本—— $S_{t+1},R_{t+1}$ ;

将上述过程称为产生真实经验(Real Experience)。其原因在于 $S_{t+1},R_{t+1}$ 是真实样本，生成该样本的模型是 真实的环境模型——这个模型我们是未知的。

使用 $Q - L e a r nin g$ 方法对 $Q - T ab l e$ 进行更新：
$Q(S_t,A_t) \gets Q(S_t,A_t) + \alpha [R_{t+1} + \gamma \mathop{\max}\limits_{a} Q(S_{t+1},a) - Q(S_t,A_t)]$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

静静的喝酒 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。