强化学习中的Q值和V值

Q值代表智能体选择特定动作后预期的奖励总和,而V值表示处于某一状态时预期的奖励总和。V值可通过所有动作的Q值在策略下的期望来计算,反之,Q值是基于V值和状态转移概率的期望奖励。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

定义 - 评估动作的价值,我们称为Q值:它代表了智能体选择这个动作后,一直到最终状态奖励总和期望

评估状态的价值,我们称为V值:它代表了智能体在这个状态下,一直到最终状态的奖励总和期望

价值越高,表示我从当前状态最终状态能获得的平均奖励将会越高

V值的定义

假设现在需要求某状态S的V值,那么我们可以这样:

  1. 我们从S点出发,并影分身出若干个自己;

  1. 每个分身按照当前的策略选择行为;

  1. 每个分身一直走到最终状态,并计算一路上获得的所有奖励总和;

  1. 我们计算每个影分身获得的平均值,这个平均值就是我们要求的V值。

Q值的定义

只不过V值衡量的是状态节点的价值,而Q值衡量的是动作节点的价值。

现在我们需要计算,某个状态S0下的一个动作A的Q值:

  1. 我们就可以从A这个节点出发,使用影分身之术;

  1. 每个影分身走到最终状态,并记录所获得的奖励;

  1. 求取所有影分身获得奖励的平均值,这个平均值就是我们需要求的Q值。

V值和Q值关系计算

1、从Q到V

假设我们已经计算出每个动作的Q值,那么在计算V值的时候就不需要一直走到最终状态了,只需要走到动作节点,看一下每个动作节点的Q值,根据策略 ,计算Q的期望就是V值了。

一个状态的V值,就是这个状态下的所有动作的Q值,在策略下的期望

2、从V到Q

用Q就是V的期望,而且这里不需要关注策略,这里是环境的状态转移概率决定的。

当我们选择A,并转移到新的状态时,就能获得奖励,我们必须把这个奖励也算上!

3、从V到V

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

waski

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值