强化学习
文章平均质量分 94
glitterosu
这个作者很懒,什么都没留下…
展开
-
【强化学习】- 5.无模型控制(蒙特卡洛控制和TD学习)
上一章无模型预测主要是 如何去评估一个给定的策略 运用蒙特卡洛评估和TD学习;本章节主要如何优化价值函数找到最优的策略。原创 2024-08-07 17:13:11 · 894 阅读 · 0 评论 -
【强化学习】- 4.无模型预测(蒙特卡洛和TD学习)
在“3.强化学习-动态规划”中我们假设环境模型已知,对马尔可夫决策问题(MDP)运用动态规划 求解最优策略和最优价值。这个章节主要针对环境未知的情况。原创 2024-08-06 18:19:49 · 824 阅读 · 0 评论 -
【强化学习】- 1.介绍
强化学习问题介绍原创 2024-07-31 19:29:57 · 489 阅读 · 0 评论 -
【强化学习】-2.马尔可夫决策过程MDP
强化学习RL-->马尔可夫决策过程MDP原创 2024-08-01 17:19:34 · 1019 阅读 · 0 评论 -
【强化学习】- 3. 动态规划DP
前面第二章主要介绍了如何用MDP去形式化RL问题, 还未涉及到如何去解MDP问题。动态规划可以帮助找到行业中面临的规划问题的最佳解决方案,前提是环境的具体情况是已知的。DP 为理解可以解决更复杂问题的 RL 算法提供了一个很好的起点。第四章和第五章将会介绍如果环境未知 (model-free)如何解。DynamicDP是一种解决复杂问题的方法, 通过将原问题拆分成子问题:对子问题求解存储子问题的解并合并,找到原问题的解。原创 2024-08-05 22:27:49 · 555 阅读 · 0 评论