![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Reinforcement Learning
Omni-Space
专注Android, Mobile Security and AI
展开
-
干货 | 算法工程师入门第二期——穆黎森讲增强学习(一)
今天我很荣幸有机会在这里,跟大家分享增强学习(Reinforcement Learning,RL)这个话题。这次分享,我希望能达到三方面的目的:第一,希望没有相关背景的同学能够对RL有一定的了解,所以我会介绍一些基础的概念。第二,希望对有机器学习算法背景的同学,如果对增强学习感兴趣的话,能了解到RL近期的一些进展。第三,对我而言也是对于相关知识的整理。这次分享主要包转载 2017-08-23 14:19:22 · 626 阅读 · 0 评论 -
【David Silver强化学习公开课】-7:Policy Gradient
一、介绍之前的控制方法都是Value-based,而在确定价值函数之后,其实我们是在价值函数的基础上确定了某种策略(贪婪,ϵϵ-贪婪)找到action。那么我们为什么不直接通过策略函数控制action呢?这样做的好处:连续的动作空间(或者高维空间)中更加高效;可以实现随机化的策略;某种情况下,价值函数可能比较难以计算,而策略函数较容易。二、Finite Differen转载 2018-01-17 06:33:02 · 813 阅读 · 0 评论 -
【David Silver强化学习公开课】-6:Value Function Approximation
一、介绍找到一种适应真实情况(很大的状态空间)的RL方法,之前的价值函数表示是通过一个S×A的表(Table)来表示Q(s,a)。状态空间很大时,这种表示内存占用过大,而且单独学习每个state的价值函数太慢了。而且在遇到没有见过的状态时,表现会很差(缺少泛化能力)。二、价值函数逼近-Incremental Online使用参数化的价值函数V’(s,w)来逼近V(s),转载 2018-01-17 06:30:43 · 435 阅读 · 0 评论 -
【David Silver强化学习公开课】-5:Model-Free Control
一、介绍这一讲的内容是大部分情况下真实使用的算法,也就是在对环境一无所知的情况下,去学习出一个好的策略。首先介绍一些概念:Model-Free Control,在环境未知的前提下,如何学习策略(价值)以获得最大的奖励。On-Policy和Off-Policy,两种控制的类型,前一种是策略已知,后一种是策略未知。后者允许你使用其他人的experience sequence来学习,而前转载 2018-01-17 06:28:40 · 466 阅读 · 0 评论 -
【David Silver强化学习公开课】-4:Model-Free Prediction
一、介绍无论是价值迭代还是策略迭代,都是在已经知道MDP模型(也就是动态转移矩阵P和奖励R)的前提下用DP的方式进行控制。那么如果对模型的这些属性并不了解,要如何进行预测和控制呢?本节主要讲几种方法来进行无模型前提下的策略评估(model-free policy evaluation)。二、Monte-Carlo RL方法Episodic MDP: 所有的行为序转载 2018-01-16 14:27:43 · 612 阅读 · 0 评论 -
【David Silver强化学习公开课】-3:DP
一、一些概念MDP的两个规划问题:预测,给定MDP和策略π,求出价值函数vπvπ控制,给定MDP,求出最佳价值函数v∗v∗和最佳策略π∗π∗Policy Evaluation策略评估:给定一个策略,从v0v0,v1v1一直求到vπvπ,第k步求出的状态价值函数,通过Bellman期望方程可以求出k+1步的状态价值函数。这样一直迭代下去,最终状态价值函数会收敛,完成对转载 2018-01-16 14:24:35 · 430 阅读 · 0 评论 -
David Silver强化学习公开课】-2:MDP
一、一些概念马尔科夫性质:当前时刻状态仅仅与前一个时刻相关。状态转移矩阵,表明了任意状态a到状态b的条件概率。马尔科夫过程(马尔科夫链):一个具有马尔科夫性质的无记忆的随机过程,包含n个状态。马尔科夫激励过程(S,P,R,γ)是一个带有value的马尔科夫链。用GtGt来表示t时刻会得到的总的return。出于数学计算、防止NaN无穷大的return转载 2018-01-16 14:19:10 · 421 阅读 · 0 评论 -
Learning Reinforcement Learning (with Code, Exercises and Solutions)
Why Study Reinforcement LearningReinforcement Learning is one of the fields I’m most excited about. Over the past few years amazing results like learning to play Atari Games from raw pixelsand M转载 2017-10-10 01:32:05 · 483 阅读 · 0 评论 -
Learning Reinforcement Learning (with Code, Exercises and Solutions)
Why Study Reinforcement LearningReinforcement Learning is one of the fields I’m most excited about. Over the past few years amazing results like learning to play Atari Games from raw pixelsand M转载 2017-10-01 15:07:05 · 867 阅读 · 0 评论 -
干货 | 算法工程师入门第二期——穆黎森讲增强学习(二)
Beyond Deep Q LearningDQN将一个强大的工具deep neural network 引入RL,解决了这中间遇到的很多新问题,收到了很好的效果。自从这篇工作以后,一方面,大家希望更强的工具能解决更难的问题,比如上面DQN还玩的不是很好的游戏,或者游戏之外的问题;另一方面,大家也希望已经能够解决的问题能做得更好,更快。近两年,学术界和工业界做了很多工作,不断将RL的效果和转载 2017-08-23 14:21:11 · 2050 阅读 · 0 评论 -
【David Silver强化学习公开课】-8:Integrating Learning and Planning
一、Model-based RLModel-Free RL,从经验中学习价值函数(以及/或者策略)。Model-based RL,从经验中直接学习环境的MDP模型。(状态转移概率P以及奖励矩阵R)从模型出发,规划价值函数(和/或策略)。能够更加有效的学习,减少模型的不确定性,但是缺点是会带来两个(学习模型,进行规划)过程的误差。这里有一个重要的假设,就是R和P是互相独立的,也就转载 2018-01-17 06:35:31 · 323 阅读 · 0 评论