策略评估 Policy Evaluation
- 问题:评估策略 π \pi π Problem: evaluate a given policy π \pi π
- 解决方案:贝尔曼期望的迭代应用 Solution: iterative application of Bellman expectation backup
v 1 → v 2 → . . . → v π v_1 → v_2 → ... → v_\pi v1→v2→...→vπ - 使用同步备份(迭代) Using synchronous backups,
- At each iteration k + 1
- For all states s ∈ S
- Update v k + 1 ( s ) v_{k+1}(s) vk+1(s) from v k ( s ′ ) v_k (s') vk(s′)
- where s’ is a successor state of s
小世界网格
智能体使用统一概率随机策略(uniform random policy)
π(n|·) = π(e|·) = π(s|·) = π(w|·) = 0.25
通过循环迭代,得到最佳策略
策略迭代
使用了贪心算法,通过反复迭代,最终收敛到最佳策略。
图形化其收敛过程:
改进的决策算法