[置顶] 深度增强学习 知乎专栏与Blog迁移说明

本Blog接下来将陆续迁移至 blog.floodsung.com主要内容将全面聚焦深度增强学习Deep Reinforcement Learning!使用Github Pages和Hexo。更简洁的界面是我转移博客的原因之一。新的blog将带给大家更好的阅读体验!新的文章也仍然会同步发布到CSDN上。欢迎关注我的新blog,欢迎交流!...
阅读(3345) 评论(2)

DRL前沿之:Hierarchical Deep Reinforcement Learning

1 前言如果大家已经对DQN有所了解,那么大家就会知道,DeepMind测试的40多款游戏中,有那么几款游戏无论怎么训练,结果都是0的游戏,也就是DQN完全无效的游戏,有什么游戏呢? 比如上图这款游戏,叫做Montezuma’s Revenge。这种游戏类似超级玛丽,难在哪里呢?需要高级的策略。比如图中要拿到钥匙,然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像...
阅读(3569) 评论(0)

增强学习Reinforcement Learning经典算法梳理3:TD方法

1 前言在上一篇blog中,我们分析了蒙特卡洛方法,这个方法的一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的,因此,能不能还是沿着bellman方程的路子,估计一下result呢?并且,注意这里,依然model free。那么什么方法可以做到呢?就是TD(temporal-difference时间差分)方法。有个名词注意一...
阅读(12093) 评论(0)

增强学习Reinforcement Learning经典算法梳理2:蒙特卡洛方法

1 前言在上一篇文章中,我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法,但是这两种算法实际上很难直接应用,原因在于依然是偏于理想化的两个算法,需要知道状态转移概率,也需要遍历所有的状态。对于遍历状态这个事,我们当然可以不用做到完全遍历,而只需要尽可能的通过探索来遍及各种状态即可。而对于状态转移概率,也就是依赖于模型Model,这...
阅读(7365) 评论(2)

增强学习Reinforcement Learning经典算法梳理1:policy and value iteration

前言就目前来看,深度增强学习(Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法,将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此,本文尝试总结增强学习中的经典算法。本文主要参考:1 Reinforcement Learning: An Introduction 2 Reinforcem...
阅读(7326) 评论(2)

OpenAI Gym 关于CartPole的模拟退火解法

前言今天测试OpenAI Gym,然后发现CartPole的最快实现快到离谱,使用Simulated Annealing,也就是SA模拟退火法。效果如下图: 代码地址:模拟退火解CartPole于是好好研究了一下。关于模拟退火法一种最优控制算法,基本思想就是每次找一个邻近的点(解法),如果邻近的点比较优,就接受这个点,但是下一次使用随机有一定概率继续选择新的邻近的点,从而避免局部最优,从而通过多次...
阅读(4352) 评论(0)

DRL前沿之:End to End Learning for Self-Driving Cars

前言如果大家关注上个月Nvidia GTC,那么大家应该会注意到Nvidia 老大黄仁勋介绍了他们自家的无人驾驶汽车,这个汽车的无人驾驶技术和以往的方法不一样,完全采用神经网络。这个系统取名为DAVE。 NVIDIA GTC Self-Driving Car 上面的视频需翻墙观看。很庆幸的是,就在上周,Nvidia发表了他们的文章来介绍这个工作: http://arxiv.org/abs/16...
阅读(3565) 评论(1)

DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control

前沿Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物,比如蜜蜂。。DRL就是要干这个事,而是关键是使用神经网络来进行决策控制。因此,考虑了一下,决定推出DRL前沿系列,第一时间推送了解到的DRL前沿,主要是介绍最新的研究成果,不讲解具体方法(考虑到博主本人也没办法...
阅读(3940) 评论(2)

你是这样获取人工智能AI前沿信息的吗?

前言对于Researchers或者Geeks而言,特别是并没有在顶级的科研圈里的人,如何高效的获取最新的科技前沿,对自己的研究方向,定位是非常重要的。对于比如人工智能的入门者而言,确定方向更是重中之重。本人自己的经历发现常常相对旁人总能第一时间获取最新的技术前沿(显然也会漏到很多)。然后觉得获取信息或许也是一种能力,值得去探索。那么下面我就分享一下个人是如何收集前沿信息的,班门弄斧,请批评指正!Ti...
阅读(5237) 评论(3)

了解点OpenAI及深度学习研究前沿

前言OpenAI是2015年底刚成立的人工智能公司,由Elon Musk领投,号称有10亿美金的投资额,由几位人工智能的顶尖好手组成。这基本上意味着一个新的DeepMind公司诞生,只不过这次OpenAI是一个组织,不属于任何一个公司。为什么要了解OpenAI?因为OpenAI的研究内容很大程度上代表着人工智能的研究方向,由于其非盈利性质以及地处加州硅谷这种黄金地段,未来聚集更多顶尖人才的可能性很大...
阅读(10051) 评论(4)

了解点Jurgen Schmidbuber

前言 可能很多童鞋都知道Andrew Ng,但并不是很多人知道Jurgen Schmidbuber。但在我看来,这位大神真的的超神。由于RNN,LSTM的兴起,Jurgen Schmidbuber开始走入到我们的视线。深入了解一下,发现他的研究超乎想象的前沿。 他的网站:http://people.idsia.ch/~juergen/ 他的Google+:https://plus.google...
阅读(1319) 评论(0)

深度解读 AlphaGo 算法原理

深度解读AlphaGo...
阅读(35995) 评论(11)

用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird

前言2013年DeepMind 在NIPS上发表Playing Atari with Deep Reinforcement Learning 一文,提出了DQN(Deep Q Network)算法,实现端到端学习玩Atari游戏,即只有像素输入,看着屏幕玩游戏。Deep Mind就凭借这个应用以6亿美元被Google收购。由于DQN的开源,在github上涌现了大量各种版本的DQN程序。但大多是复现...
阅读(27810) 评论(15)

Paper Reading 4:Massively Parallel Methods for Deep Reinforcement Learning

来源:ICML 2015 Deep Learning Workshop作者:Google DeepMind创新点:构建第一个用于深度增强学习的大规模分布式结构该结构由四部分组成: 并行的行动器:用于产生新的行为 并行的学习器:用于从存储的经验中训练 分布式的神经网络:用于表示value function或者policy 分布式的经验存储 实验结果:将DQN应用在该体系结构上,训练的水平在49个游戏中...
阅读(2254) 评论(0)

Paper Reading 3:Continuous control with Deep Reinforcement Learning

来源:ICLR2016作者:Deepmind创新点:将Deep Q-Learning应用到连续动作领域continuous control(比如机器人控制)实验成果:能够鲁棒地解决20个仿真的物理控制任务,包含机器人的操作,运动,开车。。。效果比肩传统的规划方法。优点: End-to-End 将Deep Reinforcement Learning应用在连续动作空间 缺点: 对于3D赛车,有时候并不...
阅读(4101) 评论(3)

Paper Reading 2:Human-level control through deep reinforcement learning

来源:Nature 2015作者:Deepmind理解基础: 深度学习基础 增强学习基础 创新点:构建一个全新的Agent,基于Deep Q-network,能够直接从高维的原始输入数据中通过End-to-End的增强学习训练来学习策略成果:将算法应用到Atari 2600 游戏中,其中49个游戏水平超过人类。第一个连接了高维的感知输入到动作,能够通用地学习多种不同的task详细分析研究目标Gene...
阅读(3582) 评论(0)

AlphaGo来了,终结者不远了

前言 2016年3月9日,这注定是载入史册的一天。在不被大部分人看好的情况下,AlphaGo第一局就胜了李世石,第二局的胜利更是让很多围棋高手目瞪口呆。接下来的5:0就是时间问题了。AlphaGo的胜利到底意味着什么?不同人总有不同的观点。对于很多不了解AlphaGo原理的普通观众而言,会感觉智能来了,机器人要统治世界了,细思极恐。而以此同时,一些研究人工智能的专家们,绝大多数可能根本没有认真看...
阅读(2431) 评论(3)

ROS相关:使用rospy 编写ros程序并使用rosbag存储数据

为什么使用rospyROS支持C++和Python,由于ROS的底层是由C++编写,因此大多数的ROS程序都使用C++,但是Python语言接口简单,更容易编写。并且可以使用python与深度学习的一些框架比如Caffe,TensorFlow,Theano等结合。因此,采用python是更好的选择。本文只总结一些rospy使用的细节和rosbag的使用rospy的优点除了上面说的接口简单,容易编写,...
阅读(5841) 评论(0)

从头开始安装Ubuntu,cuda,cudnn,caffe,tensorflow,ROS

前言安装ubuntu一直是一件特别特别麻烦的事情,以前常常因为换一台主机就得完全重新安装一遍,每次安装都要折腾特别久,总会遇到各种各样的问题。因此很有必要写一个Blog完整记录整个过程及遇到的问题。 现在,我使用Thinkpad e49来进行完全从头的安装。该型电脑有入门级显卡Nvidia GeForce 610M(支持CUDA)。之前安装的是Windows 7。 这里一步一步介绍以下安装: U...
阅读(10979) 评论(13)

解密Google Deepmind AlphaGo围棋算法:真人工智能来自于哪里?

2016年1月28日,Google Deepmind在Nature上发文宣布其人工智能围棋系统AlphaGo历史性的战胜人类的职业围棋选手!这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注!3月份AlphaGo对阵李世石的比赛更将引起全人类的目光! 是什么使围棋算法产生了质的飞跃?要知道,在之前最好的围棋程序也只能达到业余人类棋手的水平。是真的人工智能产生了吗?对于大多数人来说,大家都知道1997...
阅读(32573) 评论(9)
112条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:958177次
    • 积分:8520
    • 等级:
    • 排名:第2280名
    • 原创:105篇
    • 转载:5篇
    • 译文:2篇
    • 评论:271条
    博客专栏
    最新评论