现在,总结一下我们前面介绍的相关内容:
首先,我们介绍了强化学习的八个基本要素,具体参见:基本概念篇(一),强化学习基本要素
其次,我们对强化学习的过程进行了描述,具体参见:基本概念篇(二),强化学习过程
具体来讲,强化学习可以描述成一个MDP(马尔科夫决策过程),即 M = { S , A , P , r , γ , τ } M=\left\{S,A,P,r,\gamma,\tau\right\} M={
S,A,P,r,γ,τ},这其中:
S S S 是状态集;
A A A 是动作集;
P P P 是状态转移矩阵;
r : S × A → [ − R m a x , R m a x ] r:\;S\times A\rightarrow\left[-R_{max},R_{max}\right] r:S×A→[−Rmax,Rmax] 为实时环境奖励;
γ ∈ [ 0 , 1 ] \gamma\in\left[0,1\right] γ∈[0,1] 为折扣因子;
τ = ( s 0 , a 1 , s 1 , a 2 , s 2 , ⋯ , a T , s T ) \tau=\left(s_0,a_1,s_1,a_2,s_2,\cdots,a_T,s_T\right) τ=(s0,a1,s1,a2,s