Q和V的概念
评估动作的价值,我们称为Q值:它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望;
评估状态的价值,我们称为V值:它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望
Q和V可以相互转化。
一个状态下的V(s)=E(Q(s, ai)), 是对s下各动作的Q的均值, 即
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q ( s , a ) = E ( Q ( s , a ) ) V_\pi(s) = \sum_{a\in A} \pi(a|s) Q(s, a) = E(Q(s, a)) Vπ(s)=∑a∈Aπ(a∣s)Q(s,a)=E(Q(s,a))
因此,V值是和策略有关的。就像同一个残局,水平高的人觉得大有可为;而水平低的人觉得已经没救了。
与V值不同,Q值和策略并没有直接相关,而与环境的状态转移概率相关,而环境的状态转移概率是不变的。当采用一个行动a以后,从当前状态s到下一个状态s’有一个转移函数,记录了到不同状态的概率。Q值就是下个step在转移函数上的期望。
Q ( s , a ) = R s a + γ ∑ s ′ P s s ′ a V π ( s ′ ) Q(s, a) = R_s^a + \gamma\sum_{s'} P_{ss'}^a V_\pi(s') Q(s,a)=Rsa+γ∑s′Pss′aVπ(s′) 这边的 R s a R_s^a Rsa是当下的奖励, γ \gamma γ是折扣率,把未来很多步奖励,折算到当前节点。
3种模式
关于如何在一个连续过程中做出决策,有两大类方案:value based model和policy based model, 以及他们的结合体actor-critic模式。
policy based model和value based model的区别:
学习目标
value based model:主要目标是学习一个价值函数,如状态价值函数或动作价值函数 ,用于评估在某个状态下或采取某个动作后的长期累积奖励的期望,间接找到最优策略,即选择使价值函数最大化的动作。
policy ba

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



