强化学习的基本知识

原创

于 2025-03-18 19:48:48 发布 · 671 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #强化学习

Q和V的概念

评估动作的价值，我们称为Q值：它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望；
评估状态的价值，我们称为V值：它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望

Q和V可以相互转化。
一个状态下的V(s)=E(Q(s, ai))，是对s下各动作的Q的均值, 即
$V_\pi(s) = \sum_{a\in A} \pi(a|s) Q(s, a) = E(Q(s, a))$
因此，V值是和策略有关的。就像同一个残局，水平高的人觉得大有可为；而水平低的人觉得已经没救了。
与V值不同，Q值和策略并没有直接相关，而与环境的状态转移概率相关，而环境的状态转移概率是不变的。当采用一个行动a以后，从当前状态s到下一个状态s’有一个转移函数，记录了到不同状态的概率。Q值就是下个step在转移函数上的期望。
$R_s^a + \gamma\sum_{s'} P_{ss'}^a V_\pi(s')$ 这边的 $R_s^a$ 是当下的奖励， $\gamma$ 是折扣率，把未来很多步奖励，折算到当前节点。

3种模式

关于如何在一个连续过程中做出决策，有两大类方案：value based model和policy based model, 以及他们的结合体actor-critic模式。

policy based model和value based model的区别:

学习目标

value based model：主要目标是学习一个价值函数，如状态价值函数或动作价值函数，用于评估在某个状态下或采取某个动作后的长期累积奖励的期望，间接找到最优策略，即选择使价值函数最大化的动作。

policy ba

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。