Q值和V值
V值代表的是当前这个状态所能获得的奖励,之前一直不理解,今天读了一篇文章搞懂了,什么是V值呢,大白话来讲就是从当前状态出发,会面临多个动作的选择,我们每选一个动作,会进入新的状态,这样就好比一棵超多分支的多叉树,我们需要从当前这个状态出发,把每一条路都走一遍,然后记走这一条路获得的奖励,然后求所有路的均值。这样一来,如果V(s)的值非常小,我们就知道到了这个状态以后很难获得高奖励,所以就避免进入这个状态,或者最好进入比这个V值更大的状态。但是,这个V值是跟策略有关的,例如不同的策略下,选择不同动作的概率不一样,我们求平均值的时候就得算加权平均,这样V值就会受策略的影响了。
Q值和V值很类似,都是把所有可能走一遍,求获得的奖励的加权平均值。Q值是在当前状态下选取某个动作可能获得的奖励。Q值和策略没有直接相关,而是与环境的转移概率有关。
V值和Q值的关系:一个状态的V值,就是这个状态下所有动作的Q值,在当前策略下的期望。

选择了一个动作之后,会进入新的状态,并获得奖励。Q值的获得和进入的下一个状态有关,所以Q值可以通过V来计算

但我们平时更多用到的是状态到状态,也就是V到V的计算。

这个知识点是从知乎看明白的,把原地址贴上来,欢迎交流!
如何理解强化学习中的Q值和V值? - 张斯俊的文章 - 知乎
https://zhuanlan.zhihu.com/p/109498587