马尔科夫决策过程 马尔科夫决策过程,英文为Markov Decision Process,简称MDP。 马尔科夫决策的要求 1.能达到理想状态。也可以说是可以达到最后的状态。例如:阿尔法狗下棋能进行到赢的那一步 2.可以进行多种尝试 例如:阿尔法狗可以在某一次落子时,选择棋盘上多个位置中的其中一个 3.智能体的下一个状态只与当前状态和当前状态下采取的行动有关,与之前的状态没有关系 MDP的五大元素 小知识点解释: 状态价值函数 小知识点: 简单来说就是:加权值!!! Bellman方程 Bellman方程的核心:当前状态的价值=当前的奖励+下一步的价值