在强化学习rl中对于state value function和state action value function的理解

在强化学习rl中对于state value function和state action value function的理解

在rl中,经常会提及两个基础的概念:
state (V) and action(Q)
或者也可以按照所刻画的内容称为:
V(s), Q(s, a)
在这里进行一定的区分和理解:

  1. state value function:
    英文解释可以理解为:
    It is the expected return (cumulative reward)starting from the state s following policy, π.
    在这里插入图片描述
    我们可以将带有折扣因子的gamma的求和项写成累计g:
    γ is the discount factor that determines how far future rewards are taken into account in the return
    在这里插入图片描述
    这样便是v(s)的结果表示值

  2. action value function:
    The expected return(cumulative reward) starts from state s, following policy π, taking action a.
    在这里插入图片描述
    可以看到,其中最不同的一点便是,在q function中,不仅是基于当前状态,并且还要基于某一个采取的action进行未来可能回报value的衡量
    同理 将求和项可以表示为:
    在这里插入图片描述

  3. 这时候我们可以考虑一下q function与v function之间是否存在某种关系?
    我们其实可以分两种方式:
    a.用v表示q:
    在这里插入图片描述
    P 是一个 state-transition-matrix(状态转移矩阵)输出probability of reaching the next state s’ 从 state s
    R is the immediate reward, and V is the state value of the next state s’

b.用q表示v:

在这里插入图片描述
value function 是总计的统计值:total sum of probability of choosing action or policy 乘以 the action-value of taking each action

最后可以看一下这个图片从而更好的理解两者之间的关系:在这里插入图片描述
当然也有一些其他的理解,不过都比较准确:
在这里插入图片描述
在应用advantage function方面,这个工作便是例子:
Dueling Network Architectures for Deep Reinforcement Learning
另外一种理解:
在这里插入图片描述
基本上便是一致的表述,即为q function更加突出对action的刻画,也正是因为这个原因,他更佳适合于action space很大或者state action pair很难收集的情况!

respect!

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Daniel_Smith

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值