在强化学习中,agent和环境之间进行一系列交互:在每个时刻 t ,根据环境的状态和奖励,agent采取某一行为;这个行为会作用到环境中,环境改变状态并对agent进行奖励。
agent的目标是最大化累积奖励。
1 MDP
马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。
MDP是一个五元组
<S,A,P,R,γ> ,其中
- S 是一个有限状态集
- A 是一个有限动作集
- P 是一个状态转移概率矩阵, Pass′=P[St+1=s′|St=s,At=a]
- R 是一个奖励函数, Ras=E[Rt+1|St=s,At=a]
- γ 是一个折扣因子 γ∈[0,1] .策略 π 是agent的行为函数:
π(a|s)=P[At=a|St=s]注意,策略只和状态相关,和时间无关(静态的)。
2 值函数与Bellman期望方程
2.1 值函数
值函数是对未来奖励的一个预测。
回报(return)
回报 Gt 是从时刻 t 开始的总折扣奖励:
Gt=Rt+1+γRt+2+⋯=∑k=1∞γkRt+k+1 状态值函数
状态值函数 vπ(s) 是从状态 s 出发,按照策略π 采取行为得到的期望回报:
vπ(s)=Eπ[Gt|St=s]状态值函数可以用来评价状态的好坏。
根据定义可以得到:
vπ(s)=Eπ[Rt+1+γGt+1|St=s]=