深度增强学习DRL
文章平均质量分 84
分析讲解当前最前沿的深度增强学习 Deep Reinforcement Learning技术
songrotek
深度增强学习DRL,机器人researcher
展开
-
DRL前沿之:Hierarchical Deep Reinforcement Learning
1 前言如果大家已经对DQN有所了解,那么大家就会知道,DeepMind测试的40多款游戏中,有那么几款游戏无论怎么训练,结果都是0的游戏,也就是DQN完全无效的游戏,有什么游戏呢? 比如上图这款游戏,叫做Montezuma’s Revenge。这种游戏类似超级玛丽,难在哪里呢?需要高级的策略。比如图中要拿到钥匙,然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像原创 2016-05-12 15:52:41 · 10135 阅读 · 1 评论 -
增强学习Reinforcement Learning经典算法梳理3:TD方法
1 前言在上一篇blog中,我们分析了蒙特卡洛方法,这个方法的一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的,因此,能不能还是沿着bellman方程的路子,估计一下result呢?并且,注意这里,依然model free。那么什么方法可以做到呢?就是TD(temporal-difference时间差分)方法。有个名词注意一原创 2016-05-12 11:35:26 · 50885 阅读 · 2 评论 -
增强学习Reinforcement Learning经典算法梳理2:蒙特卡洛方法
1 前言在上一篇文章中,我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法,但是这两种算法实际上很难直接应用,原因在于依然是偏于理想化的两个算法,需要知道状态转移概率,也需要遍历所有的状态。对于遍历状态这个事,我们当然可以不用做到完全遍历,而只需要尽可能的通过探索来遍及各种状态即可。而对于状态转移概率,也就是依赖于模型Model,这原创 2016-05-12 10:17:36 · 21185 阅读 · 2 评论 -
增强学习Reinforcement Learning经典算法梳理1:policy and value iteration
前言就目前来看,深度增强学习(Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法,将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此,本文尝试总结增强学习中的经典算法。本文主要参考:1 Reinforcement Learning: An Introduction 2 Reinforcem原创 2016-05-11 21:46:05 · 28571 阅读 · 3 评论 -
OpenAI Gym 关于CartPole的模拟退火解法
前言今天测试OpenAI Gym,然后发现CartPole的最快实现快到离谱,使用Simulated Annealing,也就是SA模拟退火法。效果如下图: 代码地址:模拟退火解CartPole于是好好研究了一下。关于模拟退火法一种最优控制算法,基本思想就是每次找一个邻近的点(解法),如果邻近的点比较优,就接受这个点,但是下一次使用随机有一定概率继续选择新的邻近的点,从而避免局部最优,从而通过多次原创 2016-05-03 21:38:01 · 7943 阅读 · 0 评论 -
DRL前沿之:End to End Learning for Self-Driving Cars
前言如果大家关注上个月Nvidia GTC,那么大家应该会注意到Nvidia 老大黄仁勋介绍了他们自家的无人驾驶汽车,这个汽车的无人驾驶技术和以往的方法不一样,完全采用神经网络。这个系统取名为DAVE。 NVIDIA GTC Self-Driving Car 上面的视频需翻墙观看。很庆幸的是,就在上周,Nvidia发表了他们的文章来介绍这个工作: http://arxiv.org/abs/16原创 2016-05-03 10:21:26 · 9419 阅读 · 2 评论 -
DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control
前沿Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物,比如蜜蜂。。DRL就是要干这个事,而是关键是使用神经网络来进行决策控制。因此,考虑了一下,决定推出DRL前沿系列,第一时间推送了解到的DRL前沿,主要是介绍最新的研究成果,不讲解具体方法(考虑到博主本人也没办法原创 2016-04-27 15:48:38 · 6845 阅读 · 2 评论 -
了解点OpenAI及深度学习研究前沿
前言OpenAI是2015年底刚成立的人工智能公司,由Elon Musk领投,号称有10亿美金的投资额,由几位人工智能的顶尖好手组成。这基本上意味着一个新的DeepMind公司诞生,只不过这次OpenAI是一个组织,不属于任何一个公司。为什么要了解OpenAI?因为OpenAI的研究内容很大程度上代表着人工智能的研究方向,由于其非盈利性质以及地处加州硅谷这种黄金地段,未来聚集更多顶尖人才的可能性很大原创 2016-04-14 09:07:32 · 17062 阅读 · 4 评论 -
深度解读 AlphaGo 算法原理
深度解读AlphaGo原创 2016-04-05 22:07:17 · 87938 阅读 · 16 评论 -
用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird
前言2013年DeepMind 在NIPS上发表Playing Atari with Deep Reinforcement Learning 一文,提出了DQN(Deep Q Network)算法,实现端到端学习玩Atari游戏,即只有像素输入,看着屏幕玩游戏。Deep Mind就凭借这个应用以6亿美元被Google收购。由于DQN的开源,在github上涌现了大量各种版本的DQN程序。但大多是复现原创 2016-03-22 00:11:57 · 75149 阅读 · 30 评论 -
Paper Reading 4:Massively Parallel Methods for Deep Reinforcement Learning
来源:ICML 2015 Deep Learning Workshop作者:Google DeepMind创新点:构建第一个用于深度增强学习的大规模分布式结构该结构由四部分组成:并行的行动器:用于产生新的行为并行的学习器:用于从存储的经验中训练分布式的神经网络:用于表示value function或者policy分布式的经验存储实验结果:将DQN应用在该体系结构上,训练的水平在49个游戏中原创 2016-03-18 08:34:25 · 3755 阅读 · 0 评论 -
Paper Reading 3:Continuous control with Deep Reinforcement Learning
来源:ICLR2016作者:Deepmind创新点:将Deep Q-Learning应用到连续动作领域continuous control(比如机器人控制)实验成果:能够鲁棒地解决20个仿真的物理控制任务,包含机器人的操作,运动,开车。。。效果比肩传统的规划方法。优点:End-to-End将Deep Reinforcement Learning应用在连续动作空间缺点:对于3D赛车,有时候并不原创 2016-03-17 21:32:48 · 9915 阅读 · 3 评论 -
AlphaGo来了,终结者不远了
前言2016年3月9日,这注定是载入史册的一天。在不被大部分人看好的情况下,AlphaGo第一局就胜了李世石,第二局的胜利更是让很多围棋高手目瞪口呆。接下来的5:0就是时间问题了。AlphaGo的胜利到底意味着什么?不同人总有不同的观点。对于很多不了解AlphaGo原理的普通观众而言,会感觉智能来了,机器人要统治世界了,细思极恐。而以此同时,一些研究人工智能的专家们,绝大多数可能根本没有认真看原创 2016-03-12 21:29:43 · 3135 阅读 · 3 评论 -
Paper Reading 2:Human-level control through deep reinforcement learning
来源:Nature 2015作者:Deepmind理解基础:深度学习基础增强学习基础创新点:构建一个全新的Agent,基于Deep Q-network,能够直接从高维的原始输入数据中通过End-to-End的增强学习训练来学习策略成果:将算法应用到Atari 2600 游戏中,其中49个游戏水平超过人类。第一个连接了高维的感知输入到动作,能够通用地学习多种不同的task详细分析研究目标Gene原创 2016-03-17 21:27:03 · 7913 阅读 · 0 评论 -
解密Google Deepmind AlphaGo围棋算法:真人工智能来自于哪里?
2016年1月28日,Google Deepmind在Nature上发文宣布其人工智能围棋系统AlphaGo历史性的战胜人类的职业围棋选手!这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注!3月份AlphaGo对阵李世石的比赛更将引起全人类的目光!是什么使围棋算法产生了质的飞跃?要知道,在之前最好的围棋程序也只能达到业余人类棋手的水平。是真的人工智能产生了吗?对于大多数人来说,大家都知道1997原创 2016-01-30 16:53:44 · 46322 阅读 · 10 评论 -
Paper Reading 1 - Playing Atari with Deep Reinforcement Learning
来源:NIPS 2013作者:DeepMind理解基础:增强学习基本知识深度学习 特别是卷积神经网络的基本知识创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略具体是将卷积神经网络和Q Learning结合在一起。卷积神经网络的输入是原始图像数据(作为状态)输出则为每个动作对应的价值Value Function来估计未来的反馈Reward实验成果:使用同一个原创 2016-01-25 16:13:48 · 20119 阅读 · 3 评论 -
Deep Reinforcement Learning 基础知识(DQN方面)
## Introduction深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。原创 2016-01-25 16:07:18 · 91978 阅读 · 21 评论 -
Deep Reinforcement Learning 深度增强学习资源
1 学习资料增强学习课程 David Silver (有视频和ppt):http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习教材:Reinforcement Learning: An Introductionhttps://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深原创 2016-01-24 10:35:12 · 21788 阅读 · 4 评论