omnispace的博客

专注AI,物联网,区块链,安卓以及相关安全技术

排序:
默认
按更新时间
按访问量
RSS订阅

【David Silver强化学习公开课】-8:Integrating Learning and Planning

一、Model-based RL Model-Free RL,从经验中学习价值函数(以及/或者策略)。 Model-based RL,从经验中直接学习环境的MDP模型。(状态转移概率P以及奖励矩阵R)从模型出发,规划价值函数(和/或策略)。能够更加有效的学习,减少模型的不确定性,但是缺...

2018-01-17 06:35:31

阅读数 153

评论数 0

【David Silver强化学习公开课】-7:Policy Gradient

一、介绍 之前的控制方法都是Value-based,而在确定价值函数之后,其实我们是在价值函数的基础上确定了某种策略(贪婪,ϵϵ-贪婪)找到action。那么我们为什么不直接通过策略函数控制action呢? 这样做的好处: 连续的动作空间(或者高维空间)中更加高效;可以实现随机化的策略;...

2018-01-17 06:33:02

阅读数 537

评论数 0

【David Silver强化学习公开课】-6:Value Function Approximation

一、介绍 找到一种适应真实情况(很大的状态空间)的RL方法,之前的价值函数表示是通过一个S×A的表(Table)来表示Q(s,a)。状态空间很大时,这种表示内存占用过大,而且单独学习每个state的价值函数太慢了。而且在遇到没有见过的状态时,表现会很差(缺少泛化能力)。 二、价值函数逼...

2018-01-17 06:30:43

阅读数 209

评论数 0

【David Silver强化学习公开课】-5:Model-Free Control

一、介绍 这一讲的内容是大部分情况下真实使用的算法,也就是在对环境一无所知的情况下,去学习出一个好的策略。首先介绍一些概念: Model-Free Control,在环境未知的前提下,如何学习策略(价值)以获得最大的奖励。 On-Policy和Off-Policy,两种控制的类型,前一种...

2018-01-17 06:28:40

阅读数 281

评论数 0

【David Silver强化学习公开课】-4:Model-Free Prediction

一、介绍 无论是价值迭代还是策略迭代,都是在已经知道MDP模型(也就是动态转移矩阵P和奖励R)的前提下用DP的方式进行控制。那么如果对模型的这些属性并不了解,要如何进行预测和控制呢? 本节主要讲几种方法来进行无模型前提下的策略评估(model-free policy evaluatio...

2018-01-16 14:27:43

阅读数 362

评论数 0

【David Silver强化学习公开课】-3:DP

一、一些概念 MDP的两个规划问题: 预测,给定MDP和策略π,求出价值函数vπvπ控制,给定MDP,求出最佳价值函数v∗v∗和最佳策略π∗π∗ Policy Evaluation策略评估: 给定一个策略,从v0v0,v1v1一直求到vπvπ,第k步求出的状态价值函数,通过...

2018-01-16 14:24:35

阅读数 258

评论数 0

David Silver强化学习公开课】-2:MDP

一、一些概念 马尔科夫性质:当前时刻状态仅仅与前一个时刻相关。 状态转移矩阵,表明了任意状态a到状态b的条件概率。 马尔科夫过程(马尔科夫链):一个具有马尔科夫性质的无记忆的随机过程,包含n个状态。 马尔科夫激励过程(S,P,R,γ)是一个带有value的马尔科夫链...

2018-01-16 14:19:10

阅读数 263

评论数 0

Learning Reinforcement Learning (with Code, Exercises and Solutions)

Why Study Reinforcement Learning Reinforcement Learning is one of the fields I’m most excited about. Over the past few years amazing results like ...

2017-10-10 01:32:05

阅读数 263

评论数 0

Learning Reinforcement Learning (with Code, Exercises and Solutions)

Why Study Reinforcement Learning Reinforcement Learning is one of the fields I’m most excited about. Over the past few years amazing results like ...

2017-10-01 15:07:05

阅读数 575

评论数 0

干货 | 算法工程师入门第二期——穆黎森讲增强学习(二)

Beyond Deep Q Learning DQN将一个强大的工具deep neural network 引入RL,解决了这中间遇到的很多新问题,收到了很好的效果。自从这篇工作以后,一方面,大家希望更强的工具能解决更难的问题,比如上面DQN还玩的不是很好的游戏,或者游戏之外的问题;另一方面...

2017-08-23 14:21:11

阅读数 1177

评论数 0

干货 | 算法工程师入门第二期——穆黎森讲增强学习(一)

今天我很荣幸有机会在这里,跟大家分享增强学习(Reinforcement Learning,RL)这个话题。这次分享,我希望能达到三方面的目的: 第一,希望没有相关背景的同学能够对RL有一定的了解,所以我会介绍一些基础的概念。 第二,希望对有机器学习算法背景的同学,如果对增强学习感兴趣...

2017-08-23 14:19:22

阅读数 272

评论数 0

提示
确定要删除当前文章?
取消 删除