强化学习中的Q值和V值学习笔记

Q值和V值

V值代表的是当前这个状态所能获得的奖励,之前一直不理解,今天读了一篇文章搞懂了,什么是V值呢,大白话来讲就是从当前状态出发,会面临多个动作的选择,我们每选一个动作,会进入新的状态,这样就好比一棵超多分支的多叉树,我们需要从当前这个状态出发,把每一条路都走一遍,然后记走这一条路获得的奖励,然后求所有路的均值。这样一来,如果V(s)的值非常小,我们就知道到了这个状态以后很难获得高奖励,所以就避免进入这个状态,或者最好进入比这个V值更大的状态。但是,这个V值是跟策略有关的,例如不同的策略下,选择不同动作的概率不一样,我们求平均值的时候就得算加权平均,这样V值就会受策略的影响了。

Q值和V值很类似,都是把所有可能走一遍,求获得的奖励的加权平均值。Q值是在当前状态下选取某个动作可能获得的奖励。Q值和策略没有直接相关,而是与环境的转移概率有关。
image-20220516155943437

V值和Q值的关系:一个状态的V值,就是这个状态下所有动作的Q值,在当前策略下的期望。

image-20220516154939633
V值 = 累加(求期望) {每个动作的概率 * 该动作Q值 }

选择了一个动作之后,会进入新的状态,并获得奖励。Q值的获得和进入的下一个状态有关,所以Q值可以通过V来计算

image-20220516155943437
Q值=当前动作获得的奖励+折扣率*期望(累加){状态转移概率*下一状态V值} 图片标反了

但我们平时更多用到的是状态到状态,也就是V到V的计算。

image-20220516160145391
将Q值的计算替代到V值的计算中即可
其实就是贝尔曼公式嘛,这下总算看明白了。

这个知识点是从知乎看明白的,把原地址贴上来,欢迎交流!

如何理解强化学习中的Q值和V值? - 张斯俊的文章 - 知乎
https://zhuanlan.zhihu.com/p/109498587

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值