【RL】5.Q-Learning

最新推荐文章于 2022-05-23 20:29:03 发布

BevnWu

最新推荐文章于 2022-05-23 20:29:03 发布

阅读量821

点赞数

分类专栏：强化学习_BW 文章标签：强化学习

BevanWu所有

本文链接：https://blog.csdn.net/qq_41407979/article/details/109495551

版权

RL-Ch5-Q-Learning

本文提到的actor等效于前几章笔记中的agent+policy。

Critic $V^\pi(s)$

不直接采取行动
对actor进行评判(即对agent采取的policy进行评判)
$V^\pi(s)$ ：在状态s时使用策略 $\pi$ 后的累计收益

如何估计 $V^\pi(s)$ ？

Mento-Carlo(回合更新)

示意图如下：

在这里插入图片描述

实际上是一个回归问题。

Tenmporal-Difference(单步更新)

取一个episode的中间几个值，即 ${s_t,a_t,r_t,s_{t+1}\}$ ，计算图如下：

在这里插入图片描述

MC vs. TD

MC的方差较大，而TD有小方差，但更新往往不够准确。

例子

取一个游戏的八个回合，

$s_a,r=0,s_b,r=0,END$

$s_b,r=1,END\quad \times \quad7$

$s_b,r=0,END$

可以计算得到 $V^\pi(s_b)=\frac{3}{4}$ ，而MC/TD得到的 $V^\pi(s_a)$ 得到的值是不一样的。

MC：考虑到 $s_a$ 在采样时只出现一次，所以

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【RL】5.Q-Learning

title: RL-Ch5-Q-Learningdate: 2020-10-25 10:36:24comments: false #是否可评论toc: true #是否显示文章目录categories: “computer” #分类tags: #标签- Reinforcement LearningRL-Ch5-Q-Learning本文提到的actor等效于前几章笔记中的agent+policy。Critic Vπ(s)V^\pi(s)Vπ(s)不直接采取行动对actor进.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。