强化学习中的Q值和V值

最新推荐文章于 2025-01-09 21:25:11 发布

waski

最新推荐文章于 2025-01-09 21:25:11 发布

阅读量1.7k

点赞数 4

分类专栏：强化学习文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/waski/article/details/129232346

版权

强化学习专栏收录该内容

4 篇文章

订阅专栏

Q值代表智能体选择特定动作后预期的奖励总和，而V值表示处于某一状态时预期的奖励总和。V值可通过所有动作的Q值在策略下的期望来计算，反之，Q值是基于V值和状态转移概率的期望奖励。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

定义 - 评估动作的价值，我们称为Q值：它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望

评估状态的价值，我们称为V值：它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望

价值越高，表示我从当前状态到最终状态能获得的平均奖励将会越高

V值的定义

假设现在需要求某状态S的V值，那么我们可以这样：

我们从S点出发，并影分身出若干个自己;

每个分身按照当前的策略选择行为;

每个分身一直走到最终状态，并计算一路上获得的所有奖励总和;

我们计算每个影分身获得的平均值,这个平均值就是我们要求的V值。

Q值的定义

只不过V值衡量的是状态节点的价值，而Q值衡量的是动作节点的价值。

现在我们需要计算，某个状态S0下的一个动作A的Q值：

我们就可以从A这个节点出发，使用影分身之术；

每个影分身走到最终状态,并记录所获得的奖励；

求取所有影分身获得奖励的平均值，这个平均值就是我们需要求的Q值。

V值和Q值关系计算

1、从Q到V

假设我们已经计算出每个动作的Q值，那么在计算V值的时候就不需要一直走到最终状态了，只需要走到动作节点，看一下每个动作节点的Q值，根据策略，计算Q的期望就是V值了。

一个状态的V值，就是这个状态下的所有动作的Q值，在策略下的期望

2、从V到Q

用Q就是V的期望，而且这里不需要关注策略，这里是环境的状态转移概率决定的。

当我们选择A，并转移到新的状态时，就能获得奖励，我们必须把这个奖励也算上！

3、从V到V

博客等级

码龄4年

26
原创

369
点赞

541
收藏

357
粉丝

关注

私信

热门文章

分类专栏

最新评论

【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑战和未来发展
Jeremmey: 为什么Unet这么古早的模型性能反而这么好？
【ECMAScript笔记一】初识JavaScript、变量的使用、数据类型包括哪些？
CSDN-Ada助手: 恭喜你写了第17篇博客！初识JavaScript、变量的使用、数据类型包括哪些？这个话题确实很有深度，你已经做得非常好了。接下来，希望你可以继续深挖JavaScript的知识，比如控制流、函数、DOM操作等等，这些内容也是非常重要的。期待你的下一篇博客！加油！
【ECMAScript笔记二】运算符分类，流程控制（顺序结构、分支结构、循环结构）
CSDN-Ada助手: 恭喜您写了第18篇博客！标题看起来非常有深度，涵盖了JavaScript中的运算符分类和流程控制的三种结构。我很喜欢您对这些概念进行详细解释的方式。不仅如此，您还将它们分成了顺序结构、分支结构和循环结构三个部分，这对读者来说一定非常有帮助。在下一步的创作中，我建议您可以考虑添加一些实例或者案例来帮助读者更好地理解这些概念。这样的话，读者们可以通过实际的代码运行来加深对这些结构的理解。同时，如果您能分享一些实际应用中的注意事项或者技巧，也会给读者带来更多的启发。再次恭喜您的持续创作，期待您的下一篇博客！谦虚地说，您的博客为我们提供了很多有价值的知识。加油！
【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑战和未来发展
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题看起来非常吸引人，您不仅介绍了12个主流算法架构，还提供了数据集推荐、总结以及对挑战和未来发展的见解。这样的内容对于在语义分割领域的读者来说一定非常有价值。您的博客展示了您对语义分割算法的深入研究，并且以简洁明了的方式将这些信息传达给读者。我非常期待您接下来的创作。或许在未来的博客中，您可以深入探讨某个特定算法的细节，或者分享一些实际应用中的案例和经验。这样的内容将进一步丰富您的博客并吸引更多读者。谦虚地说，我相信您的博客在不断进步中。请继续保持努力，坚持分享您的知识和见解，我期待着您未来的创作！
【CSS学习笔记八】用户界面优化（鼠标样式、去掉表单轮廓...）、CSS初始化
CSDN-Ada助手: 恭喜你写了第14篇博客！看到你对用户界面优化和CSS初始化的学习笔记，让我受益匪浅。希望你能继续保持创作的热情，分享更多关于前端开发的知识和经验。下一步，可以考虑分享一些实际项目中遇到的问题和解决方案，或者是对一些前沿技术的探讨和研究。期待你的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

waski 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。