强化学习
文章平均质量分 93
Bourne_Boom
这个作者很懒,什么都没留下…
展开
-
(一)逐步搭建机器人(机械臂)强化学习环境 Pybullet + Gym + Stable Baselines3
本文代码可在https://github.com/YijiongLin中进行下载。(请点赞支持!)一、搭建基于pybullet的gym环境1.1 基本文件结构My_Robot_Gym/ setup.py __init__.py (for register) my_robot_gym/ assets/ (for storing robot model, etc.) robo原创 2021-06-24 23:59:45 · 4905 阅读 · 7 评论 -
最全:在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论
由于实验室的项目需要运用到Ubuntu 18和Cuda 10.2版本,只能放弃之前使用的配置。本篇博文主要记录本人配置Ubuntu 18, Nvidia Driver, Cuda 10.2, Pytorch的过程及一些疑问的解答,抛砖引玉,欢迎客官留下意见。0. 安装前为了后面顺利进行,确保系统不存在Nvidia Driver,Cuda相关文件。sudo apt-get purge nvidia*sudo apt-get autoremovesudo apt --purge re.原创 2021-05-15 03:39:03 · 697 阅读 · 1 评论 -
Udacity-DRL MC Blackjet Source Code
print 只用于第一个知识点三个知识点:1. 用defaultdict来创建一个字典负责Q的存储,该字典的key为state,不包括action,action对应value的索引,value的值即为state、action对应的Q值。注意,value值的类型是一个长度为2的一维数组,这里只能通过lambda返回这个类型,不能直接指定这个类型。另外,给Q词典赋key的时候,直接在Q...原创 2019-02-05 10:33:50 · 187 阅读 · 0 评论 -
Udacity Pytorch
https://www.youtube.com/watch?v=MswxJw-8PvE&list=PLaiC38QTRBdwq9MzAIrlThEBI2vIeT8hn1.1.1 使用矩阵乘法 torch.mm() or torch.matmul()一般使用前者,因为后者支持broadcasting,如果输入不正确会出现奇怪结果.You can do the multi...原创 2019-02-05 10:51:50 · 456 阅读 · 0 评论 -
Udacity-DRL Temporal_Difference_Solution CliffWalking & Taxi
CliffWalking1. Collection Dequehttps://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001411031239400f7181f65f33a4623bc42276a605debf6000 2. 画图plot一个参数为横坐标,第二个...原创 2019-02-05 10:33:46 · 285 阅读 · 0 评论 -
Udacity-DRL Discretization Mountain Car
数据离散化处理1. 离散化环境的state space (state_grid) 2. 将采样state转化为离散化后的state space对应的state 3. 用array的方法( TD用的是dict)初始化一个Q table注意第26行,这里的+号表示将两个tuple合并起来,而不是element-wise操作 上面第十行...原创 2019-02-05 10:33:31 · 348 阅读 · 0 评论 -
Udacity-DRL Tile Coding
1. 可以通过concatenate将矩阵变为列向量 (消除嵌套数组中的嵌套)https://docs.scipy.org/doc/numpy/reference/generated/numpy.concatenate.html 2. Tile的数据处理: 不过只是普通离散化的迭代版 3. for循环同时迭代多个对象 for中的每一次对象都为一个tuple的时...原创 2019-02-05 10:33:39 · 849 阅读 · 0 评论 -
DDPG Project
1. Remember the difference between the DQN and DDPG in the Q function learning is that the Target's next MAX Q value is estimated by the actor, not the critic itself. (In continuous action space, the ...原创 2019-05-06 09:11:28 · 343 阅读 · 0 评论 -
为什么Q learning,DQN,DPG,DDPG不需要importance sampling?
最近有同学问我为什么Qlearning,DQN,DDPG等off policy的算法不需要importance sampling。我看了一下网上的资料很少,仅有的资料虽然解释得还算清晰,但是基本上也是只有懂的人才看得懂,不懂的人还是得消化很久。从ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的学习规律出发,本人...原创 2019-07-11 19:52:30 · 2072 阅读 · 2 评论 -
配置NeurIPS 2019 竞赛环境
1. 直接按照官网进行:https://github.com/GOAL-Robots/REALCompetitionStartingKit2.本台电脑已经安装过gym,详细安装gym的方法可以参考以下链接https://blog.csdn.net/linyijiong/article/details/843822793.第一个问题:安装不了pyopengl解决方法1:单独运行...原创 2019-07-17 14:27:57 · 377 阅读 · 0 评论 -
论文笔记: Large-Scale Study of Curiosity-Driven Learning
一、总结1、这里的large-scale是指从不同方面来分析curiosity method的效果:利用什么作为intrinsic reward: dynamic error (prediction error), prediction uncertainty, improvement of a forward dynamics model. 利用什么作为feature encoder...原创 2019-10-02 12:20:04 · 892 阅读 · 0 评论 -
Mujoco、Mujoco-py、gym/baseline的环境配置 (可用于UC Berkeley CS294-112 18FA 课程学习)
0. 本人环境(以下均可根据右侧网址进行环境配置https://blog.csdn.net/linyijiong/article/details/84198384)Ubuntu16.04 , Anaconda3 , python 3.6 , tensorflow-gpu 1.10.1 , CUDA 9.0 , cuDNN8.0.以下安装配置均在虚拟环境中进行1...原创 2018-11-23 12:58:53 · 2370 阅读 · 3 评论 -
Ubuntu 16.04配置 Cuda, Cudnn, Anaconda, Tensorflow (GPU)
本文教程适用于刚安装好的Ubuntu 16.04注意:以下安装的版本有时效性,且因设备而异,因此要自行判断选择哪个版本,是否选择最新版本。(比如CUDA9.0这个大版本的小版本也不更新了,但cuDNN9.0的大版本下的小版本还在更新)0. What is CUDA & CuDnnCUDA is NVIDIA’s language/API for programming on t...原创 2018-11-18 15:40:32 · 2313 阅读 · 0 评论 -
Bourne强化学习笔记1:用简单例子说明Off-policy的思想与使用方法
本着ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的学习规律,本人给出直观理解、数学方法、图形表达、简单例子和文字解释,来介绍off-policy,而on-policy也将在本讲解过程中获得理解。( 在此假设大家已了解Markov Process Decision,动作概率,转移概率,Monte Carlo Met...原创 2018-08-11 11:32:09 · 5379 阅读 · 0 评论 -
强化学习概述(An Overview of Reinforcement Learning)
一、强化学习的特点 强化学习(RL)和规划(Planning)的不同 总结一下,强化学习和规划哪里不同? 强化学习看到的世界一个黑箱子,而对于规划而言,这个世界却是很清楚的。比如我们的最短路径,所有的节点、便点、权重点都是已知的;而对于强化学习,状态如何转移、边的权制是多少、甚至有哪些状态都需要自己探索、发现。 规划的问题可能就是一个解、一个路径;而强化学习的解是一个模型...转载 2018-08-07 19:45:01 · 1012 阅读 · 0 评论 -
强化学习:Markov Decision Process (基于南大俞扬博士演讲的修改和补充)
马尔科夫决策过程(Markov Decision Process) 一、强化学习基本数学模型——马尔科夫过程(Markov Process)大家可能听到了很多词,包括MDP,Q-Learning 、还有很多算法的名字,我在报告里就简单介绍一下强化学习发展的过程,以及里面会碰到什么问题。强化学习的历史非常悠久,其中,早期的强化学习和它的一个数学...转载 2018-08-07 20:42:37 · 2205 阅读 · 0 评论 -
强化学习:基于MDP的经典RL方法 (基于南大俞扬博士演讲的少量修改和补充)
三、从马尔可夫决策过程到强化学习在强化学习任务中,奖赏和转移都是未知的,需要通过学习得出。具体解决办法有两个:一种是还原出奖赏函数和转移函数。首先把MDP还原出来,然后再在MDP上解这个策略,这类方法称为有模型(Model-Based)方法,这里的模型指的是MDP。还有一类和它相对应的方法,免模型(Model-Free)法,即不还原奖赏和转移。基于模型的方法在这类方法中,智...转载 2018-08-07 23:15:06 · 3341 阅读 · 0 评论 -
Bourne强化学习笔记2:彻底搞清楚什么是Q-learning与Sarsa
为了理清强化学习中最经典、最基础的算法——Q-learning,根据ADEPT的学习规律(Analogy / Diagram / Example / Plain / Technical Definition),本文努力用直观理解、数学方法、图形表达、简单例子和文字解释来展现其精髓之处。区别于众多Q-learning讲解中的伪代码流程图,本文将提供可视化的算法流程图帮助大家学习、对比Q-learni...原创 2018-08-12 16:35:47 · 4903 阅读 · 1 评论 -
Policy Gradient 学习笔记
1.策略梯度的优化:,最后这个Vt,有的书写的是Gt,还有就是每一个trajectory,可以用几次进行训练。有的地方说是每一个si,ai,R(i+1),都可以进行一次参数的更新,有的则说是整个trajectory只能用一次,R就是整个的Gt2.策略梯度定理是怎么推导成这个参数增量更新的式子?答:1.1。1在Sutton书里面...原创 2019-05-06 09:12:58 · 159 阅读 · 0 评论 -
Bourne强化学习笔记3:在简单的Bandit问题中抓住强化学习的本质
强化学习最重要的特点是利用训练信息来评估动作,而不是指出最优动作。这就要求需要探索(explore)多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度,但没有直接指出哪个动作是最好或最坏的;而后者可以指导处哪个动作是最好的,并且该指导反馈与已经发生的动作无关。这也是非监督学习(评价性反馈)与监督学习(指导性反馈)的区别。评价性反馈完全依赖于所选择的动作(即所产生的样本),而指导性反馈则与所...原创 2018-08-25 22:31:49 · 1594 阅读 · 0 评论 -
《Playing Atari with Deep Reinforcement Learning 》 论文阅读笔记和分析(DQN 2013版)
DL难以应用于RL的原因标签:DL需要大量标签好的训练集,而RL在一个具有延迟性、噪声、稀疏性的标量reward signal中学习。这种延迟存在于action 和其reward之中,使得难以建立出类似监督学习中输入与目标的直接关联 相关性:DL中的样本数据之间是不互相影响的,而RL 的state序列是高度相关性的(因此导致其样本也是高度相关性的)。 概率分布:DL中的数据分布概率是固定的...原创 2018-07-29 12:00:19 · 1230 阅读 · 0 评论