一、动态规划原理
1.1 马尔科夫性
马尔科夫性是可以用动态规划的前提,即:
1.2 贝尔曼最优性原理
这里假设π是固定动作,且奖励和状态转移没有随机性。
蘑菇书EasyRL中的公式(2.3.12价值迭代)在此基础上增加了状态转移的随机性,其他并无变化,见☆☆式
1.2.1 remark
第二条,固定π时的方程即为贝尔曼方程
二、随机结构
引入不确定性:Pr(r|St,At)和Ps(s|St,At)以及π(a|s),此时贝尔曼方程发生了变化&#
马尔科夫性是可以用动态规划的前提,即:
这里假设π是固定动作,且奖励和状态转移没有随机性。
蘑菇书EasyRL中的公式(2.3.12价值迭代)在此基础上增加了状态转移的随机性,其他并无变化,见☆☆式
第二条,固定π时的方程即为贝尔曼方程
引入不确定性:Pr(r|St,At)和Ps(s|St,At)以及π(a|s),此时贝尔曼方程发生了变化&#