MP
MP的过程 由state probability reward lambda决定
案例如下所示:
值函数V(s)
MDP, S A P R lamdba
决策变量定义
值函数和状态值函数的定义:
Bellman方程 计算关于Q下的V
Bellman方程 计算Q
Bellman方程 计算V
寻找最优Q 和V
找到优化的策略\pi
优化V的表达
优化Q的表达:
MP的过程 由state probability reward lambda决定
案例如下所示:
值函数V(s)
决策变量定义
值函数和状态值函数的定义:
Bellman方程 计算关于Q下的V
Bellman方程 计算Q
Bellman方程 计算V
寻找最优Q 和V
找到优化的策略\pi
优化V的表达
优化Q的表达: