强化学习
文章平均质量分 92
ReEchooo
这个作者很懒,什么都没留下…
展开
-
强化学习笔记(2)——马尔可夫决策过程
马尔可夫决策过程1. 马尔可夫过程(Markov Process,MP)2. 马尔可夫奖励过程(Markov Reward Process,MRP)2.1 迭代法计算状态价值函数VVV2.2 蒙特卡罗法计算状态价值函数VVV2.3 动态规划法计算状态价值函数VVV2.4 时序差分学习法计算状态价值函数VVV3. 马尔可夫决策过程(Markov Decision Process,MDP)3.1 MDP中的策略policy3.2 MDP和MRP之间的区别3.3 MDP的价值函数3.4 贝尔曼期望等式(Bellm原创 2021-03-08 16:26:40 · 1604 阅读 · 0 评论 -
强化学习笔记(1)——概述
强化学习笔记(1)——概述1. 强化学习2. 序列决策过程简介3. Agents的类型1. 强化学习强化学习的两大主体:agent和environment强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。当前的 agent 去跟环境交互,你就会得到一堆观测。你可以把每一个观测看成一个轨迹(trajectory).一场游戏叫做一个 episode(回合)或者trial(试验)。有效动作的集合经常被称为动作空间(actio原创 2021-03-06 10:04:50 · 328 阅读 · 0 评论