马尔科夫决策进程(MDP)
马尔科夫决策进程(MDP)马尔科夫决策进程主要是用来描述一个随机过程,将来的状态仅与现在的状态有关,而与过去的状态无关,称具有这种性质的进程为马尔科夫进程。马尔科夫决策进程可以用一个四元组来表示{X,A,P,U},其中X是状态集,A是动作集,P是状态转移的概率,U是状态转移过程中的收益。1.状态集状态集满足下一时刻的状态仅与此时刻的状态有关,而与过去时刻无关。2.动作集动作集是状态转移...
原创
2018-12-23 09:46:51 ·
593 阅读 ·
0 评论