深度强化学习
文章平均质量分 92
智元元
这个作者很懒,什么都没留下…
展开
-
Deep Reinforcement Learning 深度增强学习资源
1 学习资料增强学习课程 David Silver (有视频和ppt):http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习教材:Reinforcement Learning: An Introductionhttps://webdocs.cs.ualberta.ca/~sutton/book/the-book.html ...转载 2018-05-08 21:21:32 · 404 阅读 · 0 评论 -
使用Keras和DDPG玩赛车游戏(自动驾驶)
Using Keras and Deep Deterministic Policy Gradient to play TORCS——300行python代码展示DDPG(基于Keras)——视频可以先看新手向——使用Keras+卷积神经网络玩小鸟为什么选择TORCS游戏《The Open Racing Car Simulator》(TORCS)是一款开源3D赛车模拟游戏看着AI学会开车是一件很酷的...转载 2018-05-22 19:32:00 · 4121 阅读 · 3 评论 -
Deep Reinforcement learning - 2. 基于tensorflow的DDPG实现
Deep Reinforcemen learning - 2. 基于tensorflow的DDPG实现基于我上一篇博客的算法介绍, 使用tensorflow的代码实现,仿真环境使用gym torcs 为了快速训练出结果,我没有使用driver view图像作为输入,而是使用low dimension传感器数据作为输入, 总共29个数据,包括: - 赛车速度: speedX, speed...转载 2018-05-21 22:44:34 · 889 阅读 · 0 评论 -
Deep Reinforcement Learning - 1. DDPG原理和算法
Deep Reinforcement Learning - 1. DDPG原理和算法Deep Reinforcement Learning - 1 DDPG原理和算法背景描述DDPG的定义和应用场景DDPG算法相关基本概念定义DDPG实现框架和算法DDPG对于DPG的关键改进下一篇以下用RL作为Reinforcement Learning 的简称。背景描述概括来说,RL要解决的问题是:让age...转载 2018-05-21 22:43:29 · 3446 阅读 · 2 评论 -
150行代码实现DQN算法玩CartPole
1 前言终于到了DQN系列真正的实战了。今天我们将一步一步的告诉大家如何用最短的代码实现基本的DQN算法,并且完成基本的RL任务。这恐怕也将是你在网上能找到的最详尽的DQN实战教程,当然了,代码也会是最短的。在本次实战中,我们不选择Atari游戏,而使用OpenAI Gym中的传统增强学习任务之一CartPole作为练手的任务。之所以不选择Atari游戏,有两点原因:一个是训练Atari要很久,一...转载 2018-05-18 20:41:10 · 8978 阅读 · 2 评论 -
深度强化学习系列(二):强化学习基础
本文是强化学习的基础,主要参考 Divid Silver 教程,Reinforcement Learning:An Introduction,以及周志华的西瓜书。可能之前大家已经听过了强化学习的介绍,因此,我首先问几个问题:强化学习和MDP过程是一回事吗?强化学习和监督学习的区别是什么?什么是值迭代,什么是策略迭代?有模型和无模型的强化学习的各自有什么样的学习方法?强化学习和深度学习其实很早就有了...转载 2018-05-05 21:25:39 · 626 阅读 · 0 评论 -
深度强化学习系列(一):强化学习概述
这是Nvidia 发表的自己家开发者博客上的一篇关于深度强化学习的通俗讲义,主要是从概念上来理解强化学习。(其余的还包括 RNN的sequence learning等等都可以学习下,地址:https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-sequence-learning/)文章主要从基本的reinforcement...转载 2018-05-05 21:23:02 · 822 阅读 · 0 评论 -
深度强化学习初探
2016年年初备受瞩目的围棋 “人机大战”,以人类围棋冠军被血虐落下帷幕。这只谷歌DeepMind团队开发的围棋机器人阿法狗不仅赚足了眼球,更是掀起了一波关于人工智能的讨论狂潮。现在好像作报告还是写文章都要把阿法狗提一下才能紧跟时代潮流啊(好像也自黑了一下)。其实人家DeepMind不光是下围棋的,在他们的主页上写着大大的 “Solve Intelligence”。要“Solve Intellig...转载 2018-05-05 21:21:35 · 1286 阅读 · 0 评论 -
深度强化学习 Deep Reinforcement Learning 学习整理
这学期的一门机器学习课程中突发奇想,既然卷积神经网络可以识别一副图片,解决分类问题,那如果用神经网络去控制‘自动驾驶’,在一个虚拟的环境中不停的给网络输入车周围环境的图片,让它去选择前后左右中的一个操作,并给予适当的反馈,是否能够把‘驾驶问题’,转化为分类的问题,用神经网络解决呢。和经典的强化学习 Reinforcement Learning 最大的区别是,它将直接处理像素级的超高维度raw im...原创 2018-05-05 21:19:17 · 620 阅读 · 0 评论 -
深度强化学习实战-Tensorflow实现DDPG
前言这是开栏以来的第一篇文章,都说万事开头难,希望开了这个头之后,专栏里能越来越多关于深度强化学习算法代码实现的文章。正文开始之前,先自我介绍一下,本人刚刚踏入研三,是通信与信息系统专业的学生,实验室是做卫星导航的。但由于自己对深度学习感兴趣,打算读这方向的PhD,所以自学了深度学习,强化学习,目前主要关注自动驾驶领域的研究。因为都是自己在自学,没有人指导期间也遇到了很多困难,相信很多人也和我一样...转载 2018-05-10 22:03:05 · 11818 阅读 · 5 评论 -
跟着阿尔法狗理解深度强化学习框架
阿尔法狗这个被大家热议过很久的主题, 里面其实包含了非常深刻的机器学习智慧。 是一部学习机器学习甚至是人类决策的绝好教材。机器学习是Alphago取胜的关键,为什么它会发挥巨大作用,请看下文。 了解一门科学技术最好的方法就是找出其核心论文, 让我们看看阿法狗的核心论文是怎么解读这个问题的。 以及如果把你放在这样一个位置, 会如何设计这盘游戏。 如果大家了解棋牌类游...转载 2018-05-10 22:01:17 · 1470 阅读 · 0 评论 -
深度强化学习——从DQN到DDPG
引言深度强化学习最近取得了很多进展,并在机器学习领域得到了很多的关注。传统的强化学习局限于动作空间和样本空间都很小,且一般是离散的情境下。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。实现端到端的控制也是要求能处理高维的,如图像、声音等的数据输入。前些年开始兴起的深度学习,刚好可以应对高维的输入,如果能将两者结合,那么将使智能体同时拥有深度学习的理解能力和强化学习...转载 2018-05-10 21:46:10 · 27357 阅读 · 0 评论 -
深度强化学习系列 第一讲 DQN
前言:深度强化学习系列是以强化学习入门为基础的,所以在学习本系列之前,请先学习强化学习入门第一讲到第五讲。另外,深度强化学习用到了深度学习(deep learning),本讲默认读者已经对深度学习有所了解。强化学习逐渐引起公众的注意要归功于谷歌DeepMind公司。DeepMind公司最初是由Demis Hassabis, Shane Legg和Mustafa Suleyman于2010年创立的。...原创 2018-05-10 21:44:44 · 2454 阅读 · 0 评论 -
深度强化学习——连续动作控制DDPG、NAF
一、存在的问题DQN是一个面向离散控制的算法,即输出的动作是离散的。对应到Atari 游戏中,只需要几个离散的键盘或手柄按键进行控制。然而在实际中,控制问题则是连续的,高维的,比如一个具有6个关节的机械臂,每个关节的角度输出是连续值,假设范围是0°~360°,归一化后为(-1,1)。若把每个关节角取值范围离散化,比如精度到0.01,则一个关节有200个取值,那么6个关节共有2006个取值,若进一步...转载 2018-05-22 19:33:06 · 1513 阅读 · 0 评论