马尔可夫决策过程 0. 前言 1. 马尔科夫过程(Markov Process) 2. 马尔可夫奖励过程(Markov Reward Process) 3. 马尔可夫决策过程 4. 编程实践 4.1 马尔可夫奖励过程 4.2 马尔可夫决策过程 本文未经许可禁止转载,如需转载请联系笔者 0. 前言 马尔可夫决策过程是强化学习中重要的概念之一,但是在介绍马尔可夫决策过程之前,需要先了解马尔可夫过程,和马尔可夫奖励过程,它们是依次递进的关系。 1. 马尔科夫过程(Markov Process) 在一个时序过程中,如果 t + 1 t+1 t