2019年04月_xl.zhang

10月 09月 07月 05月 04月 03月 01月

转载 David Silver强化学习公开课（七）：策略梯度

前一讲主要讲解的是价值函数的近似，然后根据价值函数来制定策略。本讲中策略P(a|s)将从一个概率集合摇身变成函数本身π(s,a)，通过借助策略相关的目标函数梯度的引导，寻找与目标函数的极值，进而得到最优策略。本讲组织架构如下：先提出价值函数在某些情况下不能很好的解决问题，同时直接基于策略的分析在某些场合具有价值函数不能替代的优点，接着引入了直接基于策略学习所需要的目标函数的设计，引入了策...

2019-04-21 21:02:32 4137

转载强化学习实践七：给Agent添加记忆功能

在《强化学习》第一部分的实践中，我们主要剖析了gym环境的建模思想，随后设计了一个针对一维离散状态空间的格子世界环境类，在此基础上实现了SARSA和SARSA(λ)算法。《强化学习》第二部分内容聚焦于解决大规模问题，这类问题下的环境的观测空间通常是多维的而且观测的通常是连续变量，或者行为不再是离散的简单行为，而是由可在一定区间内连续取值的变量构成，在解决这类大规模问题时必须要对价值函数（或策略函数...

2019-04-16 14:06:24 3603

转载 David Silver强化学习公开课（六）：价值函数的近似表示

之前的内容都是讲解一些强化学习的基础理论，这些知识只能解决一些中小规模的问题，很多价值函数需要用一张大表来存储，获取某一状态或行为价值的时候通常需要一个查表操作（Table Lookup），这对于那些状态空间或行为空间很大的问题几乎无法求解，而许多实际问题都是这些拥有大量状态和行为空间的问题，因此只掌握了前面5讲内容，是无法较好的解决实际问题的。本讲开始的内容就主要针对如何解决实际问题。本讲主...

2019-04-12 17:13:21 2502