Reinforcement Learning
文章平均质量分 94
songrotek
深度增强学习DRL,机器人researcher
展开
-
Deep Learning for Robotics 资源汇总
Deep Learning for Robotics 各种资源汇总包含Deep Learning,Computer Vision,Robotics,Reinforcement Learning原创 2015-06-11 09:29:58 · 3865 阅读 · 0 评论 -
增强学习Reinforcement Learning经典算法梳理1:policy and value iteration
前言就目前来看,深度增强学习(Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法,将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此,本文尝试总结增强学习中的经典算法。本文主要参考:1 Reinforcement Learning: An Introduction 2 Reinforcem原创 2016-05-11 21:46:05 · 28530 阅读 · 3 评论 -
增强学习Reinforcement Learning经典算法梳理2:蒙特卡洛方法
1 前言在上一篇文章中,我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法,但是这两种算法实际上很难直接应用,原因在于依然是偏于理想化的两个算法,需要知道状态转移概率,也需要遍历所有的状态。对于遍历状态这个事,我们当然可以不用做到完全遍历,而只需要尽可能的通过探索来遍及各种状态即可。而对于状态转移概率,也就是依赖于模型Model,这原创 2016-05-12 10:17:36 · 21148 阅读 · 2 评论 -
增强学习Reinforcement Learning经典算法梳理3:TD方法
1 前言在上一篇blog中,我们分析了蒙特卡洛方法,这个方法的一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的,因此,能不能还是沿着bellman方程的路子,估计一下result呢?并且,注意这里,依然model free。那么什么方法可以做到呢?就是TD(temporal-difference时间差分)方法。有个名词注意一原创 2016-05-12 11:35:26 · 50839 阅读 · 2 评论