马尔可夫链和价值评估的Q值与V值

最新推荐文章于 2024-10-13 16:52:53 发布

༄yi笑奈何

最新推荐文章于 2024-10-13 16:52:53 发布

阅读量607

点赞数 9

分类专栏：强化学习RL 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40179458/article/details/140983147

版权

强化学习RL 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

马尔科夫链

1. 智能体在环境中，观测到状态(S)

2.状态(S)被输入到智能体中，智能体经过计算，选择动作(A)

3.动作(A)使智能体进入另外一个状态(S)，并返回奖励(R)给智能体

4.智能体根据返回，调整自己的策略。重复以上步骤，一步一步创建马尔科夫链

其中的不确定性：

第一个，是“选择”的过程，智能体的“选择”会影响到下一个状态。比如state/obsevation一样，agent对于action的选择也不同，这种不同动作之间的选择，称为智能体的策略。我们的任务就是找到一个策略，能够获得最多的奖励。

第二个不确定性，是环境的随机性，这是智能体无法控制的。比如action一样但反馈回来的state/obsevation或reward也可能有所不同。但马尔科夫链允许有不确定性存在。

所以这种不确定性来自两个方面：1.智能体的行动选择（策略） 2.环境的不确定性。

Q值与V值

1.引入原因？

在强化学习中，我们会用奖励R作为智能体学习的引导，期望智能体获得更多的奖励。但是更多时候我们不能单纯通过奖励R来衡量一个动作的好坏，我们必须用长远的眼光来看待问题。我们要把未来的奖励也计算到当前状态下，再进行决策。

举例，在下其中，局中下的一步获得的奖励R并不能直接反映出它的作用，但是在结束前却能发挥至关重要的作用。

为了方便，我们希望有一种方法衡量agent做出每一种选择的(价值)。

2. 定义

评估动作Action的价值，我们称为Q值：它代表了智能体选择这个动作后，一直到最终状态奖励综合的期望。

评估状态State的价值，我们称为V值：它代表了智能体在这个状态下，一直到最终状态的奖励综合期望。

价值越高，表示当前到最终状态获得平均奖励会越高，因为智能体的最终目标是获得更多的奖励，所以智能体在当前状态，只需要选择价值最高的动作即可。

3.详解Q值和V值，以及它们之间的关系

V值

1.我们从状态S点出发，并影分身出若干个自己

2.每个分身按照当前策略选择行为

3.每个分身一直走到最终状态，并计算一路上获得的所有奖励的综合(G)

4.我们计算每个影分身获得的平均值，这个平均值就是我们要求的V值。

小黑板：V值会根据不同策略有所变化。

Q值：

Q值和上面的V值的定义是相似的，只不过Q值是在S0状态下，选择动作A，影分身后进行统计平均。

小黑板：Q值和策略没有直接关系，而与环境状态转移概率相关，而环境的状态转移概率是不变的。

Q值与V值的关系

1.都是马尔可夫树上的节点。

2.价值评价方式是一样的：

从当前节点出发 ------ 一直到最终状态 -------- 所有奖励的期望值

3.V值就是子节点Q的期望！但是注意V值与策略相关！

Q值就是子节点V的期望！但是要主要将R计算在内！

蒙特卡罗采样回溯计算V值

1.根据策略向前走，只需要记录每一次状态转移，获取多少奖励R即可

2.从终点向前走，一边走一边计算G值，G值等于上一个状态的G值，乘以一定的折扣(gamma)，再加上R

3.当我们经过多次试验后，我们可能会经过某个状态多次，通过回溯，也会有多个G值，所以通过G值总和求平均的方式来获取V值。

4.G值和V值的关系，V值是多个G值求和的平均数

缺点：每次更新G值都需要从头到尾走一遍，需要很长时间。

Monte Carlo 估算状态V值

新平均 = 旧平均 + 步长 * (新加入元素 - 旧平均)，G是更新目标

TD优化MC算法

时序差分方法又叫TD算法，TD算法对MC算法的改进：

1.TD只需要走N步，就可以回溯更新

2.和MC一样，需要走N步，每经过一次状态，把奖励记录下来，然后开始回溯

3.如何计算V呢？假设经过N步，到达最终状态，如果之前没有走过，记作0；如果走过，这个状态的V值，记作当前值

在TD算法中把更新目标由G更换为 R(奖励) + gamma(折扣值) * V(状态V值)

关注

9
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

༄yi笑奈何 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。