浅谈DP、MC、TD方法的区别与联系
引言
Dynamic Programming, Monte Carlo, Temporal Difference是强化学习过程中最基础的三种算法,本文主要总结一下这三种方法的区别与联系;
强化学习模型本质上是一个随机过程,可以用概率图模型来描述,就像 HMM 可以使用有向图来描述,马尔可夫网可以使用无向图来描述,强化学习对应的图模型是Finite Markov Decision Process(...
原创
2020-05-01 00:51:45 ·
4603 阅读 ·
0 评论