一个MDP模型包含:
- 状态集合 S
- 行为结合
A - 奖励函数 R(s,a)
- 状态转移矩阵
T
- 确定性转移
S×A→S - 概率性转移 S×A→Prob(S)
- 行为策略
π
:
S→A
在状态 s 下的应采取的最佳行为a : a=π(s) 评价策略 π 的好坏
在状态 s 下,策略
π 到底好不好呢?应该要有一个量化的评估。价值函数
Bellman等式
价值函数 Vπ(s) 代表了 π 在 s 下获得的奖励期望,它的计算是一个递归的过程。
Vπ(s)=R(s,π(s))+∑s′∈ST(s,π(s),s′)⋅γ⋅Vπ(s′) 其中,
R(s,π(s)) :在状态 s 下采取行为π(s) 的奖励
T(s,π(s),s′) :在状态 s 下采取行为π(s) 后,转移到新状态 s′ 的概率
γ :奖励折扣,取值在[0.0,1.0]。它的引入是为了使期望计算不趋于 ∞有限视野的Bellman等式
运行有限步骤n的Bellman等式
Vπ(s),0=R(s,π(s))
Vπ(s),n=R(s,π(s))+∑s′∈ST(s,π(s),s′)⋅γ⋅Vπ(s′),n−1To be continued…
参考:www.cs.rice.edu/~vardi/dag01/givan1.pdf
- 确定性转移