目录
5.通用迭代公式(Generalized Policy Iteration)
9.value-based 和 policy-based的区别
1.马尔科夫性质
当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,与过去状态是条件独立的(即与历史路径没有关系)。具有马尔可夫性质的过程通常称之为马尔可夫过程
目录
5.通用迭代公式(Generalized Policy Iteration)
9.value-based 和 policy-based的区别
当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,与过去状态是条件独立的(即与历史路径没有关系)。具有马尔可夫性质的过程通常称之为马尔可夫过程