增强学习思想整理
文章平均质量分 91
Andromeda_J
这个作者很懒,什么都没留下…
展开
-
Reinforcement Learning——DP
动态规划是用来求解MDP的方法之一,动态的含义是问题具有时间或顺序特性,规划的含义是用程序来优化程序,也就是指优化策略。动态规划算法就是两种思想的结合,它把一个复杂的问题分割成许多小的问题,在解决了这些小问题之后原本复杂的问题就随之迎刃而解。在增强学习中,它主要是利用value function来搜索最优策略,利用Bellman方程作为更新规则来计算近似的期望value function。只要我们找到了最优的value function,就不难找到最优策略。原创 2017-12-06 17:01:44 · 580 阅读 · 1 评论 -
蒙特卡罗学习之策略评估(附实例及代码)
从本趴开始将讲述免模型控制,在没人告诉我们环境信息的情况下,agent如何找到行动的最优方案。第一种方法就是蒙特拉罗学习,它是在不知道环境模型的情况下,由信息遍历整个状态链直到终端状态之后通过观察其回报值来评估价值,完成无模型预测,得到的是价值函数。一、Condition蒙特拉罗学习方法只适用于片段化的MDP过程,因为它需要到达终止状态才能回溯得到价值函数的评估值。二、Goal蒙特拉罗学习的目的是...原创 2018-03-09 17:08:30 · 7382 阅读 · 0 评论 -
蒙特卡罗学习之策略迭代(21点游戏的延续)
上一趴讲的是无模型预测中用蒙特卡罗思想来进行策略评估,即离线评价某个特定策略的表现,但未进行策略的优化。这一趴对前一篇博文做一个完善和延续,因为在一个问题或者游戏中,你光会评价自己的策略好坏是远远不够的,固守成规没有用,我们得让自己变得聪明,找到最明智最优的策略,仍然采用蒙特卡罗思想,不同的是需要在策略评估后做一个策略的迭代,在一个内部循环中找到可能的最优解。这从一个预测问题上升到了控制问题,当然...原创 2018-03-12 11:13:53 · 3039 阅读 · 1 评论 -
值函数近似——Large MDPs 的福音
对于具有大量状态空间和动作空间的MDPs,前面讲到的一些处理方法就不再适用了,可能会引起维度爆炸之类的问题。一个简单的方法就是用带有权重w参数的一个关于s的函数来表示近似的Vπ(s)或者qπ(s,a),以此建立值函数逼近器,这样我们就可以估算任何一个函数的值,并将其应用于状态数据库中,从而压缩了状态数据库的存储量。Value Function Approximation的思想大致就是如此。一、随机...原创 2018-03-18 18:36:08 · 2052 阅读 · 1 评论 -
策略梯度算法
策略梯度算法这一课我觉得还挺抽象的,有些也听不是太懂,可能是因为这一课的视频里帅帅的David没有出现……只有PPT,而且配合声音切换得不太好,看着很是不爽。不过看完了还是要来整理啊,不然像我这种不现学现用的,过几天就忘了hh,岂不是白看~好啦言归正传!策略梯度的思想在上一篇文章中已经简要介绍过,可以用来快速逼近函数值,这一课就主要来介绍一下用策略梯度优化的核心思想和常用的三种方法,由浅入深是Fi...原创 2018-03-21 19:27:17 · 9554 阅读 · 2 评论