浅谈马尔可夫决策过程(一)
1.基本概念 Markov Chain/Markov process:具有马尔可夫性质的随机过程。 Markov Property用公式表示为: P(st+1 | st, st-1, …) = P(st+1 | st)。简单说就是当前时刻的状态仅仅和上一个时刻的状态有关。这个性质感觉更多的是从工程上考虑问题得出的,因为这样可以极大的简化计算,并且有一定的合理性。 State Transition Matrix:状态转移概率矩阵定义了所有状态的转移概率。 ...
原创
2020-09-06 12:08:49 ·
2669 阅读 ·
1 评论