强化学习之基本公式

最新推荐文章于 2025-03-22 13:40:28 发布

青叶澜

最新推荐文章于 2025-03-22 13:40:28 发布

阅读量2.3k

点赞数

分类专栏： RL 文章标签：强化学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AntiDigit/article/details/110879977

版权

强化学习通过收获估计价值，公式如G(S)=Σk=0∞rt+k∗γk，状态价值函数V(S)和Q(S,A)分别代表状态与状态-动作对的期望收获。贝尔曼方程Vπ(S)=E[R(S)+Vπ(St+1)]描述了状态价值，而状态价值也可由动作价值表示：Vπ(S)=a∑π(a∣s)Qπ(s,a)。" 130895719,18148785,Python实现混合排序：数字与字符串一起排序,"['Python编程', '算法', '数据处理']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习

公式理解

强化学习中使用收获做为估计价值的指标，这可以类比与现实世界中如何在一顿自助餐中吃回本，如何在一段时间中消耗最低等问题，为了获得最优结果，我们使用计算机进行大量运算。这就是强化学习。
推想（复杂，结果最优？只是最优控制吧。）

状态S的收获

$G(S)=r(s,a)+γr(s_{t+1},a_{t+1})+......$
这就相当于 $G(S)=Σ_{k=0}^{∞}r_{t+k}*γ^{k}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。