![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习入门
文章平均质量分 80
chenzeyu940717
这个作者很懒,什么都没留下…
展开
-
强化学习-马尔可夫决策过程
目录 2.1 基本概念 2.2 随机性的来源 2.3 回报与折扣回报 2.3.1 回报 2.3.2 折扣回报 2.3.3 回报中的随机性 2.3.4 有限期 MDP 和无限期 MDP 2.4 价值函数 2.4.1 动作价值函数 2.4.2 最优动作价值函数 2.4.3 状态价值函数 2.5 实验环境 2.1 基本概念 强化学习主要就是基本概念比较多,容易混淆,不容易记住,主要说一下一些基本的概念。 强化学习可以看做成一个马尔可夫决策过程(MDP),一个MDP通常由状态空间、动作原创 2021-12-30 16:48:30 · 844 阅读 · 0 评论 -
强化学习-蒙特卡洛模拟
强化学习入门,跟着B站主播王树森逐步探索原创 2021-12-30 11:30:53 · 860 阅读 · 0 评论