马尔科夫决策过程
文章平均质量分 94
hubin00sx
这个作者很懒,什么都没留下…
展开
-
[RL] 3 Finite Markov Decision Processes (1)
最近在学习Reinforcement Learning,参考sutton老爷爷的教材。由于最近需要在组内分享一下第三章,所以先写了这篇博客,前面两章之后补上吧。The Agent-Environment Interface agent : 学习者和决策者。 environment : 与agent交互、在agent外部的所有。 agent与environment持续地交互,agent选择acti原创 2017-03-21 23:32:05 · 702 阅读 · 0 评论 -
[RL] 3 Finite Markov Decision Processes (2)
在上一篇博客[RL] 3 Finite Markov Decision Processes (1) 中,我们将问题抽象成一个模型,本篇博客,我们将着手解这个模型。The Markov Property 在增强学习中,agent根据evironment给出的state做出决策。这里我们先详细探讨一下state:一些state应该满足的条件以及不应该期望state满足的条件。 state表示所有原创 2017-03-23 00:09:00 · 526 阅读 · 0 评论 -
[RL] 3 Finite Markov Decision Processes (3)
Previous Blog 在开始新的内容之前,我们先回顾一下前两篇博客[RL] 3 Finite Markov Decision Processes (1) 、[RL] 3 Finite Markov Decision Processes (2)给出的重要概念和式子: state: St=s∈SS_t = s \in \mathcal S action: At=a∈A(St原创 2017-03-24 20:41:17 · 452 阅读 · 0 评论