回报函数
r
(
s
,
s
′
)
r(s,{s}')
r(s,s′)定义为状态转移
s
→
s
′
s\rightarrow {s}'
s→s′的代价函数(cost-to-go function)。定义状态的值函数为:
V
(
s
)
=
E
[
∑
t
=
0
∞
γ
t
r
(
s
t
,
s
t
+
1
)
∣
s
0
=
s
]
V(s)=E\left [ \sum_{t=0}^{\infty } \gamma ^{^{t}}r(s_{t},s_{t+1})|s_{0}=s \right]
V(s)=E[t=0∑∞γtr(st,st+1)∣s0=s]
其中,
0
<
γ
<
1
0<\gamma<1
0<γ<1为折扣因子,
r
(
s
t
,
s
t
+
1
)
r(s_{t},s_{t+1})
r(st,st+1)为状态转移
s
t
→
s
t
+
1
s_{t} \rightarrow s_{t+1}
st→st+1的代价。
对模型未知
M
a
r
k
o
v
Markov
Markov链的状态值函数进行求解是一类多步学习预测问题(multi-step learning prediction problem),即学习的目标是根据当前信息实现对未来多个时刻状态和相关信息的预测。而传统的监督学习一般仅用于单步学习预测问题,即根据当前信息对当前时刻的输出进行预测。
Monte-Carlo和时域差值学习是求解多步学习预测问题的一种有效办法。其中时域差值是通过利用连续两个时刻预测量的差值来更新预测模型。因此时域差值学习算法如
T
D
(
γ
)
TD(\gamma)
TD(γ)学习算法等也是Q-学习,Sarsa学习等学习控制算法的基础。
T D ( γ ) TD(\gamma) TD(γ)学习算法有Sutton首次提出,并建立了时域差值学习的形式化理论基础。已提出的 T D ( γ ) TD(\gamma) TD(γ)学习算法包括表格型 T D ( γ ) TD(\gamma) TD(γ)和基于值函数逼近的 T D ( γ ) TD(\gamma) TD(γ)学习算法两类。在表格型 T D TD TD学习算法中采用表格形式存储和计算状态和值函数的估计,但是在实际的工程应用问题往往具有大规模或联系状态空间,表格型算法在求解上述问题时将面临计算和存储量的巨大困难。