引言
- Dynamic Programming, Monte Carlo, Temporal Difference是强化学习过程中最基础的三种算法,本文主要总结一下这三种方法的区别与联系;
- 强化学习模型本质上是一个随机过程,可以用概率图模型来描述,就像 HMM 可以使用有向图来描述,马尔可夫网可以使用无向图来描述,强化学习对应的图模型是Finite Markov Decision Process(MDP),如下图(也被称作智能体-环境交互模型):
- 强化学习主要分为两步工作,第一步,预测每个状态的value function或Q function,第二步,根据value function或Q function生成Policy;
Dynamic Programming
- MDP模型已知,使用贝尔曼方程进行迭代求解value function:
V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V_\pi(s)=\sum_a \pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma V_\pi(s')] Vπ(s)=a∑π(a∣s)s