RL
文章平均质量分 95
hubin00sx
这个作者很懒,什么都没留下…
展开
-
[RL] 4 Dynamic Programming (2)
接上一篇博客[RL] 4 Dynamic Programming (1)。Policy Iteration 对于给定的policyπpolicy \,\,\pi,一旦我们通过vπv_\pi改进后得到π′\pi',我们就可以计算新的value functionv′πv_\pi',然后我们就可以进一步改进π′\pi'得到π′′\pi''。因此我们可以得到policies和value functions原创 2017-03-29 16:11:14 · 554 阅读 · 2 评论 -
[RL] 3 Finite Markov Decision Processes (1)
最近在学习Reinforcement Learning,参考sutton老爷爷的教材。由于最近需要在组内分享一下第三章,所以先写了这篇博客,前面两章之后补上吧。The Agent-Environment Interfaceagent : 学习者和决策者。environment : 与agent交互、在agent外部的所有。 agent与environment持续地交互,agent选择acti原创 2017-03-21 23:32:05 · 737 阅读 · 0 评论 -
[RL] 3 Finite Markov Decision Processes (2)
在上一篇博客[RL] 3 Finite Markov Decision Processes (1) 中,我们将问题抽象成一个模型,本篇博客,我们将着手解这个模型。The Markov Property 在增强学习中,agent根据evironment给出的state做出决策。这里我们先详细探讨一下state:一些state应该满足的条件以及不应该期望state满足的条件。 state表示所有原创 2017-03-23 00:09:00 · 577 阅读 · 0 评论 -
[RL] 4 Dynamic Programming (1)
Introduction 在这里,动态规划(Dynamic Programming, DP)指的是一类算法,在MDP中,给定一个完美的environment的模型,它们可以计算相应的optimal policy。 关于MDP,详见之前的三篇博客:[RL] 3 Finite Markov Decision Processes (1)、[RL] 3 Finite Markov Decision P原创 2017-03-28 16:13:06 · 593 阅读 · 0 评论 -
[RL] 3 Finite Markov Decision Processes (3)
Previous Blog 在开始新的内容之前,我们先回顾一下前两篇博客[RL] 3 Finite Markov Decision Processes (1) 、[RL] 3 Finite Markov Decision Processes (2)给出的重要概念和式子:state: St=s∈SS_t = s \in \mathcal Saction: At=a∈A(St原创 2017-03-24 20:41:17 · 473 阅读 · 0 评论 -
[RL] 5 Monte Carlo Methods (1)
——清明给自己放了假,见了高中老铁和他妻子,谨以此博客献给这幸福的一对,就这样度过一生哦:) 我们开始讲我们的第一个估计value functions、发现optimal policies的学习方法。 由于这一系列[RL]的博客都是围绕着增强学习问题讲的,因此建议从[RL] 3 Finite Markov Decision Processes (1)看起,至少需要了解建好的MDP模型。 与原创 2017-04-05 23:20:11 · 1655 阅读 · 0 评论