强化学习
Autumncow
这个作者很懒,什么都没留下…
展开
-
七 集成学习与计划
强化学习可以解决通过表格或者近似函数来直接学习价值函数或者策略函数,在这个方法当中,个体不会试图去理解环境。如果能够建立一个与真实环境相似的模拟环境,那么个体就能在模拟环境中进行学习,这个过程也可以称为是思考,个体可以通过思考来来决定在真实环境中采取的行动,使得能够取得最有的结果。1.环境的模型和个体的思考在之前的学习中,我们知道个体在当前状态下采用某一个行为得到奖励并进入下一个状态,如此...原创 2019-11-30 15:31:30 · 292 阅读 · 0 评论 -
六 基于策略梯度的强化学习
目录1.策略函数的引入2.常见的策略目标函数以及梯度上升2.1 Softmax策略2.2 高斯(Gaussian)策略3.Actor-Critic算法1.策略函数的引入我们在之前已经学习过基于价值学习的强化学习方法,这种方法的应用场景也是非常多,但是这些方法存在一定的缺陷,在连续问题当中,基于价值学习的方法并不能很好地解决连续行为空间的问题。此外,在描述状态空间中的某一...原创 2019-11-29 12:41:33 · 1016 阅读 · 0 评论 -
五 值函数逼近方法求解强化学习中的问题
目录1.值函数的引入以及目标函数的构建2.常用的近似价值函数2.1 线性函数2.2 神经网络2.3 卷积神经网络1.值函数的引入以及目标函数的构建迄今为止,我们已经学习了表格型强化学习方法,但是我们知道表格型方法的适应性并不好,如果遇到了一个连续型的问题,那么表格型方法无法给出全部状态的表格,就算给出了表格形式,但是因为表格过于庞大,也不具有实际操作的意义。...原创 2019-11-27 19:03:42 · 613 阅读 · 0 评论 -
四 不基于模型的控制(Sarsa,Q-learning)
我们之前已经学习了不基于模型的预测方法(eg. MC,TD),本次我们主要说明个体在不基于模型的条件下通过自身的学习,优化价值函数调整行为策略,从而获得最高奖励的过程,这个过程又叫不基于模型的控制。我们将指导个体与环境进行交互的策略称为行为策略,而将评估状态和行为的策略成为目标策略,在学习的过程中,如果行为策略与目标策略为同一个策略时,我们把这个过程叫做现时策略学习(On-policy Lea...原创 2019-11-19 21:01:33 · 533 阅读 · 0 评论 -
三 蒙特卡罗方法(MC)和时序差分方法(TD)
之前我们已经说过基于动态规划的方法来解决强化学习的问题,但是这是对于有一定的模型(知道在某一个状态下采取某一个动作的概率)才能应用的场景,在实际的情况中,想要了解到所有状态下可以采取行动的概率以及采取行动后到达某一状态的概率是困难的。由此,我们引入了不基于模型的预测方法,也即蒙特卡罗方法(MC),蒙特卡罗方法的特征是采样,那么什么是样本(sample)?我们定义智能体从某一个状态开始,到某一个...原创 2019-11-16 16:12:26 · 1778 阅读 · 0 评论 -
二 利用动态规划的思想来解决马尔可夫决策问题
动态规划(Dynamic Programming)是非常经典的求解最优解的算法思想,它要求问题满足最优子特性才可以使用。我们对马尔可夫问题的定义是一个五元组,在我们之前所讲的马尔可夫决策问题当中,是存在最优解的,我们要做的便是找到最优解。那么,如何使用动态规划的方法来解决马尔可夫决策问题呢?假设上图每个节点上都有一个值,现在要求从顶点经过一条路径到达最底层的某一个节点,使得路径上值之和最大...原创 2019-11-14 16:13:31 · 745 阅读 · 0 评论 -
一 马尔可夫决策问题
1.在解释马尔可夫决策问题之前,我们首先应该知道马尔可夫过程(Markov Process),简单理解就是未来的行为只取决于现在的状态,而与之前的状态无关。设是t时刻的状态,那么当满足条件:时,我们说状态具有马尔可夫性质。我们讨论一个简单问题时,状态的数目是有限的,不妨设为n个。从而给出状态转移矩阵的定义:,这个矩阵中的元素aij的值代表从从状态i到状态j的概率。2.基于马尔可夫过...原创 2019-11-12 17:16:31 · 1489 阅读 · 0 评论