马尔可夫决策过程
马尔科夫决策过程
马尔可夫决策过程是一个离散时间的随机过程,有六元组 {
S,A,D,P,r,J} 组成,六元组中:
1. S 有限维的环境状态空间
2.
3.
4. r(s,a,s′):S×A×S′→R 为学习系统从状态 s 执行动作
5. J 是决策优化目标函数
马尔可夫决策过程的特点是目前状态
P(s=st,a=at,s′=st+1)=pr(s
马尔可夫决策过程是一个离散时间的随机过程,有六元组 {
S,A,D,P,r,J} 组成,六元组中:
1. S 有限维的环境状态空间
2.
3.
4. r(s,a,s′):S×A×S′→R 为学习系统从状态 s 执行动作
5. J 是决策优化目标函数
马尔可夫决策过程的特点是目前状态
P(s=st,a=at,s′=st+1)=pr(s