状态值函数与状态-动作值函数

在强化学习中,状态值函数(State Value Function,记为 V ( s ) V(s) V(s)和状态-动作值函数(State-Action Value Function,记为 Q ( s , a ) Q(s, a) Q(s,a))是两个核心概念,它们的区别主要体现在定义、用途和数学表达上:


1. 定义与核心思想

  • 状态值函数 V ( s ) V(s) V(s)
    表示在状态 s s s 下,遵循某个策略 π \pi π 后能获得的长期期望回报(即从当前状态开始的累积奖励)。
    关键:它评价的是某个状态本身的价值,与具体动作无关,但依赖策略 π \pi π

  • 状态-动作值函数 Q ( s , a ) Q(s, a) Q(s,a)
    表示在状态 s s s 下,先执行动作 a a a之后遵循策略 π \pi π 能获得的长期期望回报
    关键:它评价的是在某个状态下执行某个特定动作的价值,既依赖策略 π \pi π,也显式关联动作 a a a


2. 数学表达

  • V ( s ) V(s) V(s) 的贝尔曼方程:
    V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} p(s', r | s, a) \left[ r + \gamma V^\pi(s') \right] Vπ(s)=aπ(as)s,rp(s,rs,a)[r+γVπ(s)]
    其中 π ( a ∣ s ) \pi(a|s) π(as)是策略的概率分布, γ \gamma γ 是折扣因子。

  • Q ( s , a ) Q(s, a) Q(s,a) 的贝尔曼方程:
    Q π ( s , a ) = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=s,rp(s,rs,a)[r+γaπ(as)Qπ(s,a)]
    它直接关联动作 a a a,后续状态的动作选择仍依赖策略 π \pi π


3. 核心区别

维度 V ( s ) V(s) V(s) Q ( s , a ) Q(s, a) Q(s,a)
评价对象状态 s s s 的价值在状态 s s s下执行动作 a a a的价值
动作的显式依赖无(隐含在策略中)有(显式包含动作 ( a ))
策略依赖必须依赖策略 π \pi π必须依赖策略 π \pi π
应用场景评估策略优劣(如策略迭代)优化动作选择(如Q-Learning、SARSA)
最优策略下的关系 V ∗ ( s ) = max ⁡ a Q ∗ ( s , a ) V^*(s) = \max_a Q^*(s, a) V(s)=maxaQ(s,a) Q ∗ ( s , a ) = r + γ max ⁡ a ′ Q ∗ ( s ′ , a ′ ) Q^*(s, a) = r + \gamma \max_{a'} Q^*(s', a') Q(s,a)=r+γmaxaQ(s,a)

4. 直观理解

  • V ( s ) V(s) V(s) 回答的问题是:
    “在状态 s s s 下,如果我遵循当前策略 π \pi π,平均能获得多少回报?”

  • Q ( s , a ) Q(s, a) Q(s,a) 回答的问题是:
    “在状态 s s s下,如果我执行动作 a a a 后继续遵循策略 π \pi π,平均能获得多少回报?”


5. 关系

两者通过贝尔曼方程关联:
V π ( s ) = ∑ a π ( a ∣ s ) Q π ( s , a ) V^\pi(s) = \sum_{a} \pi(a|s) Q^\pi(s, a) Vπ(s)=aπ(as)Qπ(s,a)
即状态值函数是状态-动作值函数在动作空间上的加权平均(权重由策略 π \pi π 决定)。


公式解释

一、状态值函数 V π ( s ) V^\pi(s) Vπ(s) 的公式

公式
V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} p(s', r | s, a) \left[ r + \gamma V^\pi(s') \right] Vπ(s)=aπ(as)s,rp(s,rs,a)[r+γVπ(s)]

分步解释
  1. 外层求和 ∑ a π ( a ∣ s ) \sum_{a} \pi(a|s) aπ(as)

    • 含义:对当前状态 s s s 下所有可能的动作 a a a 进行加权平均,权重是策略 π \pi π 选择动作 a a a的概率 p i ( a ∣ s ) pi(a|s) pi(as)
    • 直观理解:策略 π \pi π 可能以不同概率选择动作(例如,80%向左,20%向右),外层求和体现了策略的“平均行为”。
  2. 内层求和 ∑ s ′ , r p ( s ′ , r ∣ s , a ) \sum_{s', r} p(s', r | s, a) s,rp(s,rs,a)

    • 含义:对执行动作 a a a 后可能转移到的下一状态 s ′ s' s和获得的即时奖励 r r r,按环境动态 p ( s ′ , r ∣ s , a ) p(s', r | s, a) p(s,rs,a)的概率加权求和。
    • 直观理解:环境是随机的,执行动作 ( a ) 后可能进入不同状态(例如,成功移动的概率是90%,失败的概率是10%),内层求和体现了环境的“不确定性”。
  3. 核心项 r + γ V π ( s ′ ) r + \gamma V^\pi(s') r+γVπ(s)

    • 含义:即时奖励 r r r加上下一状态 s ′ s' s 的长期折扣价值 γ V π ( s ′ ) \gamma V^\pi(s') γVπ(s)
    • 直观理解:当前动作不仅带来即时奖励 ( r ),还会影响未来状态的价值,但未来的价值要打折扣 γ \gamma γ(例如,γ=0.9表示未来奖励的价值是当前的90%)。
  4. 整合公式

    • V π ( s ) V^\pi(s) Vπ(s)是策略 π \pi π下状态 s s s 的期望长期回报,计算分两步:
      1. 按策略选择动作的平均(外层求和);
      2. 按环境动态转移状态的平均(内层求和)。

二、状态-动作值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 的公式

公式
Q π ( s , a ) = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=s,rp(s,rs,a)[r+γaπ(as)Qπ(s,a)]

分步解释
  1. 外层求和 ∑ s ′ , r p ( s ′ , r ∣ s , a ) \sum_{s', r} p(s', r | s, a) s,rp(s,rs,a)

    • 含义:对执行动作 a a a 后可能转移到的状态 s s s 和奖励 r r r,按环境动态 p ( s ′ , r ∣ s , a ) p(s', r | s, a) p(s,rs,a) 加权求和。
    • 直观理解:和 V ( s ) V(s) V(s) 的内层求和相同,体现环境的不确定性。
  2. 核心项 r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') r+γaπ(as)Qπ(s,a)

    • 含义
      • 即时奖励 r r r,加上下一状态 s ′ s' s 的长期折扣价值 γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') γaπ(as)Qπ(s,a)
      • 其中 ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \sum_{a'} \pi(a'|s') Q^\pi(s', a') aπ(as)Qπ(s,a) 是下一状态 s ′ s' s的状态值 V π ( s ′ ) V^\pi(s') Vπ(s),即 V π ( s ′ ) = ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) V^\pi(s') = \sum_{a'} \pi(a'|s') Q^\pi(s', a') Vπ(s)=aπ(as)Qπ(s,a)
    • 直观理解
      • 当前动作 a a a 的长期价值 = 即时奖励 + 未来状态的期望价值(但未来价值的计算又回到了策略 π \pi π的选择)。
  3. 整合公式

    • Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 表示在状态 s s s执行动作 a a a 后,继续遵循策略 π \pi π 的期望长期回报。
    • 关键区别
      • Q ( s , a ) Q(s, a) Q(s,a) 显式固定了第一步动作 a a a,而后续动作仍由策略 π \pi π决定。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

背水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值