概念梳理
马尔可夫决策过程
策略,一直是我初学时搞错的一个东西,他指的是你在每一个S(状态)下采取各种action的概率,而不是从开头到结尾这样的一条路。
返回值是概率!!!!
这里第二个式子可见Π的返回值是概率。
Q就是下一步期望加未来步期望,最直观的告诉你接下来往哪走最好。
概念梳理
马尔可夫决策过程
策略,一直是我初学时搞错的一个东西,他指的是你在每一个S(状态)下采取各种action的概率,而不是从开头到结尾这样的一条路。
返回值是概率!!!!
这里第二个式子可见Π的返回值是概率。
Q就是下一步期望加未来步期望,最直观的告诉你接下来往哪走最好。