学习资料:Easy-RL 学习视频:b站视频 马尔科夫链 如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它 当前状态之前的状态都没有关系。 马尔可夫奖励过程 马尔可夫决策过程(MDP)