贝尔曼方程

不考虑策略影响时非向量矩阵形式表示标准贝尔曼方程

当不考虑策略影响时,仅考虑确定性环境下的马尔可夫决策过程,可以使用非向量矩阵形式表示标准贝尔曼方程。

状态值函数 V ( s ) V(s) V(s)的非向量矩阵形式:

V ( s ) = R ( s ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ′ ) V(s) = R(s) + \gamma \sum_{s' \in S} P(s'|s) V(s') V(s)=R(s)+γsSP(ss)V(s)

  • V ( s ) V(s) V(s) 表示状态 s s s的值。
  • R ( s ) R(s) R(s) 是状态 s s s 的即时奖励。
  • γ \gamma γ 是折扣因子,表示未来奖励的折现率。
  • P ( s ′ ∣ s ) P(s' | s) P(ss) 是从状态 s s s转移到状态 s ′ s' s 的概率。
  • S S S 是状态空间, s , s ′ s, s' s,s分别表示状态空间中的两个状态。

这个方程表示了状态值函数 V ( s ) V(s) V(s) 与下一个状态 s ′ s' s 的值之间的关系。通过当前状态的即时奖励以及未来状态值的折现期望,更新当前状态的值。

在这种情况下,状态值函数 V ( s ) V(s) V(s) 是针对每个状态单独计算的,而不是表示为一个整体的向量或矩阵。

不考虑策略影响时向量矩阵形式表示标准贝尔曼方程

标准贝尔曼方程描述了动态规划问题中的最优化原理,但是针对矩阵向量形式的具体表达可能因问题而异。一般来说,对于动态规划中的状态值函数和状态转移概率,可以通过矩阵向量形式来表示。

假设有一个离散时间的马尔可夫决策过程(MDP),状态值函数可以用一个向量 V \mathbf{V} V表示,状态转移概率可以用一个转移概率矩阵 P \mathbf{P} P表示,即状态 i i i 到状态 j j j的转移概率为 P i j \mathbf{P}_{ij} Pij

对于一个有限的状态空间,标准贝尔曼方程可以表示为向量形式:

V = R + γ P V \mathbf{V} = \mathbf{R} + \gamma \mathbf{P} \mathbf{V} V=R+γPV

其中:

  • V \mathbf{V} V是状态值函数的向量,每个元素表示相应状态的值。
  • R \mathbf{R} R 是奖励函数的向量,每个元素表示相应状态的即时奖励。
  • γ \gamma γ 是折扣因子,表示未来奖励的折现率。
  • P \mathbf{P} P 是状态转移概率矩阵,描述状态间的转移概率。

这个方程描述了状态值函数之间的关系,可以通过迭代求解来找到最优的状态值函数。

在求解过程中,可以通过不断迭代更新状态值函数 V \mathbf{V} V直到收敛,具体的迭代更新方式可能会基于动态规划的方法,比如值迭代或策略迭代。

考虑策略影响的标准贝尔曼方程

策略在动态规划中至关重要。当考虑策略影响时,我们需要引入状态值函数 V π ( s ) V^{\pi}(s) Vπ(s) 和状态-行为值函数 Q π ( s , a ) Q^{\pi}(s, a) Qπ(s,a) 来表示特定策略 π \pi π下的值。

标准贝尔曼方程结合了策略影响,对于状态值函数 V π ( s ) V^{\pi}(s) Vπ(s) 的表达式如下:

V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) ) V^{\pi}(s) = \sum_{a \in A} \pi(a|s) \left( R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) V^{\pi}(s') \right) Vπ(s)=aAπ(as)(R(s,a)+γsSP(ss,a)Vπ(s))

其中:

  • V π ( s ) V^{\pi}(s) Vπ(s) 表示在策略 π \pi π 下状态 (s) 的值。
  • π ( a ∣ s ) \pi(a | s) π(as) 是策略 π \pi π在状态 (s) 下选择行为 (a) 的概率。
  • R ( s , a ) R(s, a) R(s,a) 是在状态 s s s采取行为 (a) 后得到的即时奖励。
  • γ \gamma γ 是折扣因子,表示未来奖励的折现率。
  • P ( s ′ ∣ s , a ) P(s' | s, a) P(ss,a) 是在状态 (s) 采取行为 a a a 后转移到状态 s ′ s' s 的概率。
  • S S S 是状态空间, s , s ′ s, s' s,s 分别表示状态空间中的两个状态。
  • A A A 是行为空间, a a a表示行为。

这个方程表示了在策略 π \pi π 下,状态值 V π ( s ) V^{\pi}(s) Vπ(s) 与采取不同行为的期望奖励以及未来状态值的折现期望之间的关系。通过对所有可能的行为进行加权求和,按照策略概率选择行为,并考虑未来状态值的折现来更新当前状态的值。

类似地,状态-行为值函数 Q π ( s , a ) Q^{\pi}(s, a) Qπ(s,a)的贝尔曼方程可以表示为:

Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^{\pi}(s, a) = R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) \sum_{a' \in A} \pi(a'|s') Q^{\pi}(s', a') Qπ(s,a)=R(s,a)+γsSP(ss,a)aAπ(as)Qπ(s,a)

这个方程表示了在策略 π \pi π下,状态-行为值 Q π ( s , a ) Q^{\pi}(s, a) Qπ(s,a)与采取行为 a a a 后得到的即时奖励以及未来状态-行为值的折现期望之间的关系。在计算状态-行为值时,考虑了下一个状态可能采取的所有行为,并根据策略概率对未来状态-行为值进行加权求和。

这些方程考虑了策略的影响,在评估状态值函数和状态-行为值函数时都按照特定策略下的行为选择进行计算。

考虑策略影响的向量和矩阵形式的标准贝尔曼方程

当考虑策略影响时,状态值函数 V π ( s ) V^{\pi}(s) Vπ(s)和状态-行为值函数 Q π ( s , a ) Q^{\pi}(s, a) Qπ(s,a)可以通过向量和矩阵形式来表示。在策略 π \pi π下,标准贝尔曼方程的向量矩阵形式如下:

状态值函数 V π V^{\pi} Vπ 的向量矩阵形式:

V π = R π + γ P π V π \mathbf{V}^{\pi} = \mathbf{R}^{\pi} + \gamma \mathbf{P}^{\pi} \mathbf{V}^{\pi} Vπ=Rπ+γPπVπ

其中:

  • V π \mathbf{V}^{\pi} Vπ 是状态值函数向量,表示在策略 π \pi π下每个状态的值。
  • R π \mathbf{R}^{\pi} Rπ 是即时奖励向量,表示在策略 π \pi π 下每个状态的即时奖励。
  • γ \gamma γ 是折扣因子,表示未来奖励的折现率。
  • P π \mathbf{P}^{\pi} Pπ 是状态转移概率矩阵,表示在策略 π \pi π下状态间的转移概率。

状态-行为值函数 Q π Q^{\pi} Qπ的向量矩阵形式:

Q π = R π + γ P π Q π \mathbf{Q}^{\pi} = \mathbf{R}^{\pi} + \gamma \mathbf{P}^{\pi} \mathbf{Q}^{\pi} Qπ=Rπ+γPπQπ

其中:

  • Q π \mathbf{Q}^{\pi} Qπ 是状态-行为值函数矩阵,表示在策略 π \pi π 下每个状态和行为的值。
  • R π \mathbf{R}^{\pi} Rπ 是即时奖励矩阵,表示在策略 π \pi π下每个状态和行为的即时奖励。
  • γ \gamma γ 是折扣因子,表示未来奖励的折现率。
  • P π \mathbf{P}^{\pi} Pπ 是状态转移概率矩阵,表示在策略 π \pi π 下状态间的转移概率。

这些方程描述了在特定策略下状态值函数和状态-行为值函数之间的关系,通过迭代求解可以得到在该策略下的最优值函数。

辅助资料

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值