强化学习
文章平均质量分 93
leelee6591
这个作者很懒,什么都没留下…
展开
-
TRPO下界不等式的数学证明
TRPO原文给出了策略单调改进保证的下界不等式,并在附录中给出了证明;由于其证明过程的”$\alpha-$ 耦合策略对“过于抽象,本文直接给出了数学证明,并对其最小界进行了讨论。原创 2022-06-02 15:37:26 · 271 阅读 · 0 评论 -
迭代法求解贝尔曼期望方程的数学证明
本文首先介绍了度量空间、压缩映射和不动点理论,并运用上述概念证明了迭代法求解贝尔曼期望方程。原创 2022-06-02 09:25:55 · 921 阅读 · 0 评论 -
小方格世界的DP、Q-learning、sarsa和MC算法
本文基于小方格世界模型,实现了DP(动态规划)、Q-learning、sarsa和MC(蒙特卡洛)算法。原创 2022-06-02 10:59:48 · 433 阅读 · 0 评论