David Silver 强化学习公开课
Omni-Space
专注Android, Mobile Security and AI
展开
-
David Silver强化学习公开课】-2:MDP
一、一些概念 马尔科夫性质:当前时刻状态仅仅与前一个时刻相关。 状态转移矩阵,表明了任意状态a到状态b的条件概率。 马尔科夫过程(马尔科夫链):一个具有马尔科夫性质的无记忆的随机过程,包含n个状态。 马尔科夫激励过程(S,P,R,γ)是一个带有value的马尔科夫链。 用GtGt来表示t时刻会得到的总的return。出于数学计算、防止NaN无穷大的return转载 2018-01-16 14:19:10 · 421 阅读 · 0 评论 -
【David Silver强化学习公开课】-3:DP
一、一些概念 MDP的两个规划问题: 预测,给定MDP和策略π,求出价值函数vπvπ控制,给定MDP,求出最佳价值函数v∗v∗和最佳策略π∗π∗ Policy Evaluation策略评估: 给定一个策略,从v0v0,v1v1一直求到vπvπ,第k步求出的状态价值函数,通过Bellman期望方程可以求出k+1步的状态价值函数。这样一直迭代下去,最终状态价值函数会收敛,完成对转载 2018-01-16 14:24:35 · 430 阅读 · 0 评论 -
【David Silver强化学习公开课】-4:Model-Free Prediction
一、介绍 无论是价值迭代还是策略迭代,都是在已经知道MDP模型(也就是动态转移矩阵P和奖励R)的前提下用DP的方式进行控制。那么如果对模型的这些属性并不了解,要如何进行预测和控制呢? 本节主要讲几种方法来进行无模型前提下的策略评估(model-free policy evaluation)。 二、Monte-Carlo RL方法 Episodic MDP: 所有的行为序转载 2018-01-16 14:27:43 · 612 阅读 · 0 评论 -
【David Silver强化学习公开课】-5:Model-Free Control
一、介绍 这一讲的内容是大部分情况下真实使用的算法,也就是在对环境一无所知的情况下,去学习出一个好的策略。首先介绍一些概念: Model-Free Control,在环境未知的前提下,如何学习策略(价值)以获得最大的奖励。 On-Policy和Off-Policy,两种控制的类型,前一种是策略已知,后一种是策略未知。后者允许你使用其他人的experience sequence来学习,而前转载 2018-01-17 06:28:40 · 466 阅读 · 0 评论 -
【David Silver强化学习公开课】-6:Value Function Approximation
一、介绍 找到一种适应真实情况(很大的状态空间)的RL方法,之前的价值函数表示是通过一个S×A的表(Table)来表示Q(s,a)。状态空间很大时,这种表示内存占用过大,而且单独学习每个state的价值函数太慢了。而且在遇到没有见过的状态时,表现会很差(缺少泛化能力)。 二、价值函数逼近-Incremental Online 使用参数化的价值函数V’(s,w)来逼近V(s),转载 2018-01-17 06:30:43 · 435 阅读 · 0 评论 -
【David Silver强化学习公开课】-7:Policy Gradient
一、介绍 之前的控制方法都是Value-based,而在确定价值函数之后,其实我们是在价值函数的基础上确定了某种策略(贪婪,ϵϵ-贪婪)找到action。那么我们为什么不直接通过策略函数控制action呢? 这样做的好处: 连续的动作空间(或者高维空间)中更加高效;可以实现随机化的策略;某种情况下,价值函数可能比较难以计算,而策略函数较容易。 二、Finite Differen转载 2018-01-17 06:33:02 · 813 阅读 · 0 评论 -
【David Silver强化学习公开课】-8:Integrating Learning and Planning
一、Model-based RL Model-Free RL,从经验中学习价值函数(以及/或者策略)。 Model-based RL,从经验中直接学习环境的MDP模型。(状态转移概率P以及奖励矩阵R)从模型出发,规划价值函数(和/或策略)。能够更加有效的学习,减少模型的不确定性,但是缺点是会带来两个(学习模型,进行规划)过程的误差。 这里有一个重要的假设,就是R和P是互相独立的,也就转载 2018-01-17 06:35:31 · 323 阅读 · 0 评论