Markov链与多步学习预测问题

回报函数 r ( s , s ′ ) r(s,{s}') r(s,s)定义为状态转移 s → s ′ s\rightarrow {s}' ss的代价函数(cost-to-go function)。定义状态的值函数为:
V ( s ) = E [ ∑ t = 0 ∞ γ t r ( s t , s t + 1 ) ∣ s 0 = s ] V(s)=E\left [ \sum_{t=0}^{\infty } \gamma ^{^{t}}r(s_{t},s_{t+1})|s_{0}=s \right] V(s)=E[t=0γtr(st,st+1)s0=s]
其中, 0 &lt; γ &lt; 1 0&lt;\gamma&lt;1 0<γ<1为折扣因子, r ( s t , s t + 1 ) r(s_{t},s_{t+1}) r(st,st+1)为状态转移 s t → s t + 1 s_{t} \rightarrow s_{t+1} stst+1的代价。

对模型未知 M a r k o v Markov Markov链的状态值函数进行求解是一类多步学习预测问题(multi-step learning prediction problem),即学习的目标是根据当前信息实现对未来多个时刻状态和相关信息的预测。而传统的监督学习一般仅用于单步学习预测问题,即根据当前信息对当前时刻的输出进行预测。
Monte-Carlo时域差值学习是求解多步学习预测问题的一种有效办法。其中时域差值是通过利用连续两个时刻预测量的差值来更新预测模型。因此时域差值学习算法如 T D ( γ ) TD(\gamma) TD(γ)学习算法等也是Q-学习,Sarsa学习等学习控制算法的基础。

T D ( γ ) TD(\gamma) TD(γ)学习算法有Sutton首次提出,并建立了时域差值学习的形式化理论基础。已提出的 T D ( γ ) TD(\gamma) TD(γ)学习算法包括表格型 T D ( γ ) TD(\gamma) TD(γ)基于值函数逼近的 T D ( γ ) TD(\gamma) TD(γ)学习算法两类。在表格型 T D TD TD学习算法中采用表格形式存储和计算状态和值函数的估计,但是在实际的工程应用问题往往具有大规模或联系状态空间,表格型算法在求解上述问题时将面临计算和存储量的巨大困难。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值