5. 蒙特卡洛方法
于 2023-01-25 19:39:46 首次发布
离轨策略在强化学习中通过目标策略和行为策略分离,解决探索与利用的问题。本文介绍了策略评估中的重要性采样,特别是蒙特卡洛算法,用于估计状态值。通过折扣敏感的重要性采样和每决策重要性抽样方法,减少估计的方差,提高学习效率。
摘要由CSDN通过智能技术生成