Markov链与多步学习预测问题
回报函数r(s,s′)r(s,{s}')r(s,s′)定义为状态转移s→s′s\rightarrow {s}'s→s′的代价函数(cost-to-go function)。定义状态的值函数为:
V(s)=E[∑t=0∞γtr(st,st+1)∣s0=s]V(s)=E\left [ \sum_{t=0}^{\infty } \gamma ^{^{t}}r(s_{t...
原创
2018-10-31 15:33:13 ·
494 阅读 ·
0 评论