Flood Sung的专栏

知乎专栏:https://zhuanlan.zhihu.com/intelligentunit csdn停用

排序:
默认
按更新时间
按访问量

深度增强学习 知乎专栏与Blog迁移说明

本Blog接下来将陆续迁移至 blog.floodsung.com主要内容将全面聚焦深度增强学习Deep Reinforcement Learning!使用Github Pages和Hexo。更简洁的界面是我转移博客的原因之一。新的blog将带给大家更好的阅读体验!新的文章也仍然会同步发布到CS...

2016-05-24 16:04:25

阅读数:5517

评论数:3

DRL前沿之:Hierarchical Deep Reinforcement Learning

1 前言如果大家已经对DQN有所了解,那么大家就会知道,DeepMind测试的40多款游戏中,有那么几款游戏无论怎么训练,结果都是0的游戏,也就是DQN完全无效的游戏,有什么游戏呢? 比如上图这款游戏,叫做Montezuma’s Revenge。这种游戏类似超级玛丽,难在哪里呢?需要高级的策...

2016-05-12 15:52:41

阅读数:6643

评论数:0

增强学习Reinforcement Learning经典算法梳理3:TD方法

1 前言在上一篇blog中,我们分析了蒙特卡洛方法,这个方法的一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的,因此,能不能还是沿着bellman方程的路子,估计一下result呢?并且,注意这里,依然model free...

2016-05-12 11:35:26

阅读数:37919

评论数:0

增强学习Reinforcement Learning经典算法梳理2:蒙特卡洛方法

1 前言在上一篇文章中,我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法,但是这两种算法实际上很难直接应用,原因在于依然是偏于理想化的两个算法,需要知道状态转移概率,也需要遍历所有的状态。对于遍历状态这个事,我们当然可以不用做到...

2016-05-12 10:17:36

阅读数:16866

评论数:2

增强学习Reinforcement Learning经典算法梳理1:policy and value iteration

前言就目前来看,深度增强学习(Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法,将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此,本文尝试总结增强学习中的经典算法。本文主要参考:1 R...

2016-05-11 21:46:05

阅读数:19257

评论数:2

OpenAI Gym 关于CartPole的模拟退火解法

前言今天测试OpenAI Gym,然后发现CartPole的最快实现快到离谱,使用Simulated Annealing,也就是SA模拟退火法。效果如下图: 代码地址:模拟退火解CartPole于是好好研究了一下。关于模拟退火法一种最优控制算法,基本思想就是每次找一个邻近的点(解法),如果邻近的...

2016-05-03 21:38:01

阅读数:6716

评论数:0

DRL前沿之:End to End Learning for Self-Driving Cars

前言如果大家关注上个月Nvidia GTC,那么大家应该会注意到Nvidia 老大黄仁勋介绍了他们自家的无人驾驶汽车,这个汽车的无人驾驶技术和以往的方法不一样,完全采用神经网络。这个系统取名为DAVE。 NVIDIA GTC Self-Driving Car 上面的视频需翻墙观看。很庆幸的是,...

2016-05-03 10:21:26

阅读数:5918

评论数:1

DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control

前沿Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物,比如蜜蜂。。DRL就是要干这个事,而是关键是使用神经网络来进行决策控制。因此,考虑了一下,决定推出DRL前...

2016-04-27 15:48:38

阅读数:5292

评论数:2

你是这样获取人工智能AI前沿信息的吗?

前言对于Researchers或者Geeks而言,特别是并没有在顶级的科研圈里的人,如何高效的获取最新的科技前沿,对自己的研究方向,定位是非常重要的。对于比如人工智能的入门者而言,确定方向更是重中之重。本人自己的经历发现常常相对旁人总能第一时间获取最新的技术前沿(显然也会漏到很多)。然后觉得获取信...

2016-04-16 14:06:41

阅读数:7039

评论数:3

了解点OpenAI及深度学习研究前沿

前言OpenAI是2015年底刚成立的人工智能公司,由Elon Musk领投,号称有10亿美金的投资额,由几位人工智能的顶尖好手组成。这基本上意味着一个新的DeepMind公司诞生,只不过这次OpenAI是一个组织,不属于任何一个公司。为什么要了解OpenAI?因为OpenAI的研究内容很大程度上...

2016-04-14 09:07:32

阅读数:15083

评论数:4

了解点Jurgen Schmidbuber

前言 可能很多童鞋都知道Andrew Ng,但并不是很多人知道Jurgen Schmidbuber。但在我看来,这位大神真的的超神。由于RNN,LSTM的兴起,Jurgen Schmidbuber开始走入到我们的视线。深入了解一下,发现他的研究超乎想象的前沿。 他的网站:http://peop...

2016-04-13 09:34:40

阅读数:1794

评论数:0

深度解读 AlphaGo 算法原理

深度解读AlphaGo

2016-04-05 22:07:17

阅读数:66673

评论数:12

用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird

前言2013年DeepMind 在NIPS上发表Playing Atari with Deep Reinforcement Learning 一文,提出了DQN(Deep Q Network)算法,实现端到端学习玩Atari游戏,即只有像素输入,看着屏幕玩游戏。Deep Mind就凭借这个应用以6...

2016-03-22 00:11:57

阅读数:54110

评论数:21

Paper Reading 4:Massively Parallel Methods for Deep Reinforcement Learning

来源:ICML 2015 Deep Learning Workshop作者:Google DeepMind创新点:构建第一个用于深度增强学习的大规模分布式结构该结构由四部分组成: 并行的行动器:用于产生新的行为 并行的学习器:用于从存储的经验中训练 分布式的神经网络:用于表示value funct...

2016-03-18 08:34:25

阅读数:3015

评论数:0

Paper Reading 3:Continuous control with Deep Reinforcement Learning

来源:ICLR2016作者:Deepmind创新点:将Deep Q-Learning应用到连续动作领域continuous control(比如机器人控制)实验成果:能够鲁棒地解决20个仿真的物理控制任务,包含机器人的操作,运动,开车。。。效果比肩传统的规划方法。优点: End-to-End 将D...

2016-03-17 21:32:48

阅读数:6798

评论数:3

Paper Reading 2:Human-level control through deep reinforcement learning

来源:Nature 2015作者:Deepmind理解基础: 深度学习基础 增强学习基础 创新点:构建一个全新的Agent,基于Deep Q-network,能够直接从高维的原始输入数据中通过End-to-End的增强学习训练来学习策略成果:将算法应用到Atari 2600 游戏中,其中49个游戏...

2016-03-17 21:27:03

阅读数:6336

评论数:0

AlphaGo来了,终结者不远了

前言 2016年3月9日,这注定是载入史册的一天。在不被大部分人看好的情况下,AlphaGo第一局就胜了李世石,第二局的胜利更是让很多围棋高手目瞪口呆。接下来的5:0就是时间问题了。AlphaGo的胜利到底意味着什么?不同人总有不同的观点。对于很多不了解AlphaGo原理的普通观众而言,会感觉智...

2016-03-12 21:29:43

阅读数:2829

评论数:3

ROS相关:使用rospy 编写ros程序并使用rosbag存储数据

为什么使用rospyROS支持C++和Python,由于ROS的底层是由C++编写,因此大多数的ROS程序都使用C++,但是Python语言接口简单,更容易编写。并且可以使用python与深度学习的一些框架比如Caffe,TensorFlow,Theano等结合。因此,采用python是更好的选择...

2016-03-03 16:22:05

阅读数:11083

评论数:3

从头开始安装Ubuntu,cuda,cudnn,caffe,tensorflow,ROS

前言安装ubuntu一直是一件特别特别麻烦的事情,以前常常因为换一台主机就得完全重新安装一遍,每次安装都要折腾特别久,总会遇到各种各样的问题。因此很有必要写一个Blog完整记录整个过程及遇到的问题。 现在,我使用Thinkpad e49来进行完全从头的安装。该型电脑有入门级显卡Nvidia Ge...

2016-03-01 11:10:49

阅读数:13246

评论数:13

解密Google Deepmind AlphaGo围棋算法:真人工智能来自于哪里?

2016年1月28日,Google Deepmind在Nature上发文宣布其人工智能围棋系统AlphaGo历史性的战胜人类的职业围棋选手!这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注!3月份AlphaGo对阵李世石的比赛更将引起全人类的目光! 是什么使围棋算法产生了质的飞跃?要知道,在之前...

2016-01-30 16:53:44

阅读数:38792

评论数:10

提示
确定要删除当前文章?
取消 删除
关闭
关闭