1.MDP过程 \textbf{1.MDP过程} 1.MDP过程
![]() |
Markov Decision Process过程示意图 |
2.单轮回报reward R和长期回报return G \textbf{2.单轮回报reward R和长期回报return G} 2.单轮回报reward R和长期回报return G
Reward R是单轮回报 R n R_n Rn, Return G是序列未来的整体收益 G n G_n Gn,可以表示为:
G n = R n + 1 + R n + 2 ∗ r + . . . + R n + t ∗ r t − 1 + . . . \small G_n = {R_n+1 + R_{n+2}*r + ... + R_{n+t}*r^{t-1}+ ...} Gn=Rn+1+Rn+2∗r+...+Rn+t∗rt−1+... \qquad [1]
其中r是衰减系数
3.Agent \textbf{3.Agent}