- 马尔科夫性:即无后效性,下一个状态只和当前状态有关而与之前的状态无关。
- 马尔科夫过程:马尔科夫过程是随机过程的一种。可以理解为,在满足马尔科夫性质的条件下,状态与状态之间的转换过程即为马尔科夫过程。这个过程只有状态和状态转移概率,是不涉及动作的。
- 马尔科夫决策过程:考虑了动作策略的马尔科夫过程,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。
- 强化学习:是依靠环境给予的奖惩来学习的,因此对应的马尔科夫决策过程还包括奖惩值
这几者的区别详见:https://zhuanlan.zhihu.com/p/80884389
- 马尔科夫决策推荐两篇文章
- 强化学习及其经典算法——Q-learning(文章中结合了实例,容易理解)
- 强化学习如何解决问题以及适合解决什么样的问题?
- 如何解决问题:https://blog.csdn.net/broadview2006/article/details/79076736
- 解决什么问题: 序贯决策问题
https://blog.csdn.net/songyunli1111/article/details/84453457
- 从强化学习到深度强化学习(注意经验池和目标网路)
深度强化学习(DRL) = 强化学习(RL) + 深度学习(DL)