不考虑策略影响时非向量矩阵形式表示标准贝尔曼方程
当不考虑策略影响时,仅考虑确定性环境下的马尔可夫决策过程,可以使用非向量矩阵形式表示标准贝尔曼方程。
状态值函数 V ( s ) V(s) V(s)的非向量矩阵形式:
V ( s ) = R ( s ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ′ ) V(s) = R(s) + \gamma \sum_{s' \in S} P(s'|s) V(s') V(s)=R(s)+γs′∈S∑P(s′∣s)V(s′)
- V ( s ) V(s) V(s) 表示状态 s s s的值。
- R ( s ) R(s) R(s) 是状态 s s s 的即时奖励。
- γ \gamma γ 是折扣因子,表示未来奖励的折现率。
- P ( s ′ ∣ s ) P(s' | s) P(s′∣s) 是从状态 s s s转移到状态 s ′ s' s′ 的概率。
- S S S 是状态空间, s , s ′ s, s' s,s′分别表示状态空间中的两个状态。
这个方程表示了状态值函数 V ( s ) V(s) V(s) 与下一个状态 s ′ s' s′ 的值之间的关系。通过当前状态的即时奖励以及未来状态值的折现期望,更新当前状态的值。
在这种情况下,状态值函数 V ( s ) V(s) V(s) 是针对每个状态单独计算的,而不是表示为一个整体的向量或矩阵。
不考虑策略影响时向量矩阵形式表示标准贝尔曼方程
标准贝尔曼方程描述了动态规划问题中的最优化原理,但是针对矩阵向量形式的具体表达可能因问题而异。一般来说,对于动态规划中的状态值函数和状态转移概率,可以通过矩阵向量形式来表示。
假设有一个离散时间的马尔可夫决策过程(MDP),状态值函数可以用一个向量 V \mathbf{V} V表示,状态转移概率可以用一个转移概率矩阵 P \mathbf{P} P表示,即状态 i i i 到状态 j j j的转移概率为 P i j \mathbf{P}_{ij} Pij。
对于一个有限的状态空间,标准贝尔曼方程可以表示为向量形式:
V = R + γ P V \mathbf{V} = \mathbf{R} + \gamma \mathbf{P} \mathbf{V} V=R+γPV
其中:
- V \mathbf{V} V是状态值函数的向量,每个元素表示相应状态的值。
- R \mathbf{R} R 是奖励函数的向量,每个元素表示相应状态的即时奖励。
- γ \gamma γ 是折扣因子,表示未来奖励的折现率。
- P \mathbf{P} P 是状态转移概率矩阵,描述状态间的转移概率。
这个方程描述了状态值函数之间的关系,可以通过迭代求解来找到最优的状态值函数。
在求解过程中,可以通过不断迭代更新状态值函数 V \mathbf{V} V直到收敛,具体的迭代更新方式可能会基于动态规划的方法,比如值迭代或策略迭代。
考虑策略影响的标准贝尔曼方程
策略在动态规划中至关重要。当考虑策略影响时,我们需要引入状态值函数 V π ( s ) V^{\pi}(s) Vπ(s) 和状态-行为值函数 Q π ( s , a ) Q^{\pi}(s, a) Qπ(s,a) 来表示特定策略 π \pi π下的值。
标准贝尔曼方程结合了策略影响,对于状态值函数 V π ( s ) V^{\pi}(s) Vπ(s) 的表达式如下:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) ) V^{\pi}(s) = \sum_{a \in A} \pi(a|s) \left( R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) V^{\pi}(s') \right) Vπ(s)=a∈A∑π(a∣s)(R(s,a)+γs′∈S∑P(s′∣s,a)Vπ(s′))
其中:
- V π ( s ) V^{\pi}(s) Vπ(s) 表示在策略 π \pi π 下状态 (s) 的值。
- π ( a ∣ s ) \pi(a | s) π(a∣s) 是策略 π \pi π在状态 (s) 下选择行为 (a) 的概率。
- R ( s , a ) R(s, a) R(s,a) 是在状态 s s s采取行为 (a) 后得到的即时奖励。
- γ \gamma γ 是折扣因子,表示未来奖励的折现率。
- P ( s ′ ∣ s , a ) P(s' | s, a) P(s′∣s,a) 是在状态 (s) 采取行为 a a a 后转移到状态 s ′ s' s′ 的概率。
- S S S 是状态空间, s , s ′ s, s' s,s′ 分别表示状态空间中的两个状态。
- A A A 是行为空间, a a a表示行为。
这个方程表示了在策略 π \pi π 下,状态值 V π ( s ) V^{\pi}(s) Vπ(s) 与采取不同行为的期望奖励以及未来状态值的折现期望之间的关系。通过对所有可能的行为进行加权求和,按照策略概率选择行为,并考虑未来状态值的折现来更新当前状态的值。
类似地,状态-行为值函数 Q π ( s , a ) Q^{\pi}(s, a) Qπ(s,a)的贝尔曼方程可以表示为:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^{\pi}(s, a) = R(s, a) + \gamma \sum_{s' \in S} P(s' | s, a) \sum_{a' \in A} \pi(a'|s') Q^{\pi}(s', a') Qπ(s,a)=R(s,a)+γs′∈S∑P(s′∣s,a)a′∈A∑π(a′∣s′)Qπ(s′,a′)
这个方程表示了在策略 π \pi π下,状态-行为值 Q π ( s , a ) Q^{\pi}(s, a) Qπ(s,a)与采取行为 a a a 后得到的即时奖励以及未来状态-行为值的折现期望之间的关系。在计算状态-行为值时,考虑了下一个状态可能采取的所有行为,并根据策略概率对未来状态-行为值进行加权求和。
这些方程考虑了策略的影响,在评估状态值函数和状态-行为值函数时都按照特定策略下的行为选择进行计算。
考虑策略影响的向量和矩阵形式的标准贝尔曼方程
当考虑策略影响时,状态值函数 V π ( s ) V^{\pi}(s) Vπ(s)和状态-行为值函数 Q π ( s , a ) Q^{\pi}(s, a) Qπ(s,a)可以通过向量和矩阵形式来表示。在策略 π \pi π下,标准贝尔曼方程的向量矩阵形式如下:
状态值函数 V π V^{\pi} Vπ 的向量矩阵形式:
V π = R π + γ P π V π \mathbf{V}^{\pi} = \mathbf{R}^{\pi} + \gamma \mathbf{P}^{\pi} \mathbf{V}^{\pi} Vπ=Rπ+γPπVπ
其中:
- V π \mathbf{V}^{\pi} Vπ 是状态值函数向量,表示在策略 π \pi π下每个状态的值。
- R π \mathbf{R}^{\pi} Rπ 是即时奖励向量,表示在策略 π \pi π 下每个状态的即时奖励。
- γ \gamma γ 是折扣因子,表示未来奖励的折现率。
- P π \mathbf{P}^{\pi} Pπ 是状态转移概率矩阵,表示在策略 π \pi π下状态间的转移概率。
状态-行为值函数 Q π Q^{\pi} Qπ的向量矩阵形式:
Q π = R π + γ P π Q π \mathbf{Q}^{\pi} = \mathbf{R}^{\pi} + \gamma \mathbf{P}^{\pi} \mathbf{Q}^{\pi} Qπ=Rπ+γPπQπ
其中:
- Q π \mathbf{Q}^{\pi} Qπ 是状态-行为值函数矩阵,表示在策略 π \pi π 下每个状态和行为的值。
- R π \mathbf{R}^{\pi} Rπ 是即时奖励矩阵,表示在策略 π \pi π下每个状态和行为的即时奖励。
- γ \gamma γ 是折扣因子,表示未来奖励的折现率。
- P π \mathbf{P}^{\pi} Pπ 是状态转移概率矩阵,表示在策略 π \pi π 下状态间的转移概率。
这些方程描述了在特定策略下状态值函数和状态-行为值函数之间的关系,通过迭代求解可以得到在该策略下的最优值函数。
辅助资料