强化学习(Reinforcement Learning, RL)理论部分之马尔科夫(Markov Decision Processes,MDP):
一、马尔科夫决策过程之Markov Processes(马尔科夫过程):马尔科夫决策过程(Markov Decision Processes,MDP),是强化学习研究的理论基石,MDP过程是一种随机过程,该模型能够提供一种非常简便的表达方式,对于解决序贯决策问题(Sequential Decision)十分有效。...
原创
2018-05-10 13:36:13 ·
3702 阅读 ·
1 评论