蒙特卡洛树搜索方法介绍——算力聚焦方法之Dyna-Q+
引言
上一节基于规划与学习的差异性介绍了 D y n a − Q Dyna-Q Dyna−Q架构的具体算法过程。但从真实环境的角度观察, D y n a − Q Dyna-Q Dyna−Q架构同样存在各种问题,本节从 D y n a − Q Dyna-Q Dyna−Q架构的问题出发,介绍算力聚焦的本质和具体的算力聚焦方法。
回顾:Dyna-Q角度观察规划与学习的结合过程
从 D y n a − Q Dyna-Q Dyna−Q角度观察规划与学习的结合过程:
- 学习过程 中,结合非终结状态 S t S_t St和对应在 Q − T a b l e Q-Table Q−Table中的 Q ( S t , a ) ( a ∈ A ( S t ) ) Q(S_t,a)(a \in \mathcal A(S_t)) Q(St,a)(a∈A(St)),构建一个基于 ϵ − \epsilon- ϵ−贪心方法的策略 π \pi π;
- 从策略 π \pi π中选择一个动作—— A t A_t At;
- 执行动作 A t A_t At,通过状态转移过程,得到一组真实样本—— S t + 1 , R t + 1 S_{t+1},R_{t+1} St+1,Rt+1;
将上述过程称为 产生真实经验(Real Experience)。其原因在于 S t + 1 , R t + 1 S_{t+1},R_{t+1} St+1,Rt+1是真实样本,生成该样本的模型是 真实的环境模型——这个模型我们是未知的。
- 使用 Q − L e a r n i n g Q-Learning Q−Learning方法对 Q − T a b l e Q-Table Q−Table进行更新:
Q ( S t , A t ) ← Q ( S t , A t ) + α [ R t + 1 + γ max a Q ( S t + 1 , a ) − Q ( S t , A t ) ] Q(S_t,A_t) \gets Q(S_t,A_t) + \alpha [R_{t+1} + \gamma \mathop{\max}\limits_{a} Q(S_{t+1},a) - Q(S_t,A_t)] Q(St,A