强化学习
文章平均质量分 62
猫毛已经快要掉光的小猫
这个作者很懒,什么都没留下…
展开
-
【强化学习】贝尔曼公式 - bellman equation
还是用这个迷宫游戏说。首先明确,不撞墙到终点比撞墙到终点好。路径越短到终点越好。原创 2023-09-03 15:17:32 · 489 阅读 · 0 评论 -
【强化学习】MDP马尔科夫链
然后决策微观一点来看,就是规定我在某个状态需要进行如何action,所以我关心的是我在这个state需要往哪走,而不会关心我怎么来的到了这个state。用迷宫游戏很好理解。游戏规则就是我需要走到S9蓝色位置,黄色位置都是墙不能走。然后我每一个位置我都可以上下左右不动,五种操作。只要我的决策确定下来了,那么就规定了我一个状态我需要做那个行动转移到另外一个状态。并且我的这个action只参照于我所处的状态。首先需要对环境进行抽象,环境很简单,我目前棋子处于哪个位置。至于怎么找到最优的决策这不是我要关心的。原创 2023-09-03 14:14:50 · 139 阅读 · 0 评论 -
【强化学习】基本概念
强化学习的主要角色是(agent)和,环境是智能体存在和互动的世界。智能体根据当前的环境做出action,action影响环境。然后智能体根据新的环境再进行action。原创 2023-08-31 19:07:43 · 116 阅读 · 0 评论