强化学习最本质的数学模型,MDP
强化学习的本质其实就是一个马尔可夫决策过程(MDP),在一个,MDP中最关键的一个公式就是bellman equation:
下面说的是在一个没有action的MRP过程中,一个状态的价值
v
(
s
)
v(s)
v(s)与当前状态的奖励
R
(
s
)
R(s)
R(s) 和此状态的转移状态
V
(
s
′
)
V(s')
V(s′)有关。
对于Bellman equation有三种求解方式:
- DP,需要知道状态之间的转移概率
- Monte-Carlo,蒙特卡洛其实就是不断采样尝试,直到收敛
- Temporal-Difference(TD),是DP与MC的结合
进一步的我们可以延伸出MDP的Bellman equaton:MDP
与MRP不同的是,MDP多了一个action的过程,对应的多一个
q
(
s
,
a
)
q(s,a)
q(s,a) action-value function。价值函数
v
(
s
)
v(s)
v(s)与动作价值函数的关系为:
v
(
s
)
v(s)
v(s),
q
(
s
,
a
)
q(s,a)
q(s,a)对应的bellman equation为:
用图形化可以展示为: