https://www.bilibili.com/video/av9833386
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/MDP.pdf
David Silver深度强化学习第2课 - 马尔科夫决策过程
所有的增强学习都转化成MDPs的形式来解决
Markov Decision Processes
MDPs的核心思想就是具有Markov状态
转移状态概率矩阵
Markov Reward Processes
强化学习的目标是得到最大的return(找到最优方法) 下字母读gamma
将每个时间步的reward相加,并使return最大。
下面引入决策Decision的概念
MDP就有最大化思想,要最大化未来的reward
optimal(最优) policy的定义
Then how do we arrive q*?
Bellman Optimality Equation is non-linear(非线性的)
No closed form solution (in general)(并没有统一的显式求解公式)
Many iterative solution methods(一些迭代求解方法)
- Value Iteration
- Policy Iteration
- Q-learning
- Sarsa