强化学习基础篇(三十四)基于模拟的搜索算法
上一篇Dyna算法是基于真实经验数据和模拟经验数据来解决马尔科夫决策过程的问题。本篇将结合前向搜索和采样法,构建更加高效的搜索规划算法,即基于模拟的搜索算法。
1、前向搜索算法(Forward Search)
前向搜索算法将当前状态作为根节点构建一个搜索树,并使用马尔科夫决策过程模型进行前向搜索。需要注意的是前向搜索主要关注的是从当前状态开始构建的马尔科夫决策过程,而非整个马尔科夫决策过程。
上一篇Dyna算法是基于真实经验数据和模拟经验数据来解决马尔科夫决策过程的问题。本篇将结合前向搜索和采样法,构建更加高效的搜索规划算法,即基于模拟的搜索算法。
前向搜索算法将当前状态作为根节点构建一个搜索树,并使用马尔科夫决策过程模型进行前向搜索。需要注意的是前向搜索主要关注的是从当前状态开始构建的马尔科夫决策过程,而非整个马尔科夫决策过程。