DRL
文章平均质量分 87
hehedadaq
强化、图像、机器人相关内容...
强化库:https://github.com/kaixindelele/DRLib
求star~
展开
-
重生强化【Reincarnating RL】论文梳理
重生强化!原创 2022-12-14 22:10:41 · 434 阅读 · 0 评论 -
GymFetch-插孔-开抽屉任务介绍
GymFetch-插孔开抽屉任务介绍文章目录GymFetch-插孔开抽屉任务介绍前言:插孔任务介绍:插孔任务observation的设置:最终效果:联系方式:前言:最近做HER相关对比实验,需要几个验证仿真环境,所以仿照原版gym-fetch的封装格式,借用了metaworld的素材,为了和push,pick有所区别,所以重新搭建了两个环境,一个是随机插孔任务,一个是开抽屉任务。前者目前看来是符合需要的。后者面临着穿模的问题,后面会有所讨论。开源链接:https://github.com/kaixi原创 2022-03-22 20:11:41 · 604 阅读 · 0 评论 -
mujoco获取rgb_array报错Failed to initialize OpenGL
mujoco获取rgb_array报错Failed to initialize OpenGL前言:时间紧急,直接贴出源帖子;参考链接:Failed to load OpenGL: Found 0 GPUs for rendering. Using device 0.Desktop (please complete the following information):OS: ubuntu 20.04Python Version 3.8.10Mujoco Version 2.1mujoco-原创 2022-02-18 23:06:18 · 2242 阅读 · 2 评论 -
深度强化学习Actor-Critic的更新逻辑梳理笔记
深度强化学习Actor-Critic的更新逻辑梳理笔记文章目录深度强化学习Actor-Critic的更新逻辑梳理笔记前言:Actor-Critic架构简介:critic的更新逻辑actor的更新逻辑:前言:前几天在给师弟讲actor-critic架构更新逻辑的时候,actor的优化逻辑我卡了好一会儿,最终也没有完整的把逻辑梳理出来,今天刚好趁着脑子清醒,把之前的PPT拿出来,借着PPT的内容,将AC架构的更新逻辑说明白,特此做一个笔记。Actor-Critic架构简介:关于AC架构,还是简单的说说原创 2022-01-15 22:03:18 · 2503 阅读 · 0 评论 -
A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记
A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记文章目录A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记前言:经典再现:1. diss同行:如何和审稿人battle自己的idea直观:offline的背景知识:TD3+BC的核心内容:前言:最近好奇offline到底目前有哪些靠谱的简洁的工作。然后好几位群友就推荐了TD3作者最新工原创 2021-12-27 00:40:26 · 1191 阅读 · 1 评论 -
《self imitation learning》快速阅读
《self imitation learning》快速阅读文章目录《self imitation learning》快速阅读前言:SIL的核心概念:联系方式:前言:最近对自模仿学习特别感兴趣,因此调研了一堆相关的论文,最经典的一篇自然是《self imitation learning》,称为SIL。刚开始我搜的模仿学习,然后发现行为克隆 behavior cloning,即BC是是最简单的一种模仿学习,然后发现,他们用的都是提前提供好的专家数据,而不是智能体自己探索到的好数据。这个很明显不优雅。看原创 2021-11-24 22:38:18 · 677 阅读 · 0 评论 -
“IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks“快速阅读笔记
IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks 快速阅读笔记即–适用于长期复杂操作任务的宜家家具组装环境文章目录IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks 快速阅读笔记前言:主要内容:前言:昨天在搜behavior cloning的时候,发现了这么一篇神奇的论文,由于是发在了原创 2021-11-20 15:17:48 · 524 阅读 · 0 评论 -
Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读
Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读前言这篇文章看的人不太多的样子,19年的ICML,到现在才有3次引用,还都不是主流的强化算法类的内容。GitHub开源的代码也只有8个star。可见是相当的凉了。全网就白辰甲大佬19年的一篇博客:白辰甲-Trajectory-Based Off-Policy Deep RL,也找不到openreview。但由于我已经打印了它的PDF,论文讲的内容也比较有意思:策略梯度能不能用过去比原创 2021-11-14 22:47:28 · 857 阅读 · 0 评论 -
Q = defaultdict(lambda: np.zeros(env.action_space.n))语句解析
Q = defaultdict(lambda: np.zeros(env.action_space.n))语句解析前言:再看蒙特卡洛搜索树的代码时,看到了一个Q的初始化定义语句如上形式,一时间没看明白。搜了一下每个部分的含义之后,才知道整句话到底实现了什么功能。首先后面的部分是非常简单的,env.action_space.n直接是一个动作数目,假设是n,np.zeros()函数也简单,直接创建一个初始值为0的n维数组.理解default_dict和lambda的作用难以理解的是那个default_原创 2021-11-13 20:54:13 · 1738 阅读 · 0 评论 -
从 VDN 到 QMIX的学习笔记
从 VDN 到 QMIX的学习笔记文章目录从 VDN 到 QMIX的学习笔记前言:参考链接:VDN的简介:1. 研究背景2.MARL中的难点:2.1.部分可观察2.2. 不稳定性3. 为什么要进行值函数分解4. VDN算法的提出:5.VDN的总结:6.QMIX算法:6.1 重新认识值函数分解6.2 VDN 的缺点6.3 QMIX 的思想6.4 使用 hypernetworks 去利用全局状态s关于这段网络结构的分析:最后的总结:联系方式:前言:这几天看了一下model-based 的dream co原创 2021-11-01 17:15:09 · 3642 阅读 · 1 评论 -
强化学习采样频率和更新频率的关系探讨
强化学习采样频率和更新频率的关系探讨文章目录强化学习采样频率和更新频率的关系探讨前言:问题起源:潜在的缺陷--限制了batch-size的设定:updata_every=1的情况下,batch-size的增加会性能降低:联系方式:前言:这个问题很多做强化的朋友都遇到过,今天中午答应群友今天要写出来,尽管少了几组实验没做,但是先勉强凑出一个文档解析吧。并且可能因为我关键词没找对,我只在spinningup的代码中,看到了一个update every的关键词,但是搜索起来,好像也没有太多帖子和论文(只看原创 2021-10-23 20:25:13 · 2662 阅读 · 0 评论 -
mujoco机器人建模教程和优质资源总结-长期更新
mujoco机器人建模教程和优质资源总结-长期更新前言最近要利用mujoco搭建一个定制化的击球模型,有一些基础的功能我找不到实现的例程。因此想着能不能做一个归纳和总结,在准备向社区“白嫖”之前,先分享一下我之前的一些经验。将分为下面几个步骤开始:mujoco安装教程mujoco的注册问题mujoco-py常见bug;mujoco-py的系列例程基于mujoco-py的机器人仿真优质代码库推荐;优质博客推荐待解决问题一、mujoco安装教程:Linux系统完善教程,兼容Ubu原创 2021-05-03 23:12:02 · 5438 阅读 · 1 评论 -
强化学习-reward-shaping-好奇心驱动-调研
强化学习-reward-shaping-好奇心驱动-调研文章目录强化学习-reward-shaping-好奇心驱动-调研前言:快速阅览:一、Curiosity-driven Exploration by Self-supervised Prediction二、random network distillation三、[好奇心驱动的强化学习:从信息论开始](https://zhuanlan.zhihu.com/p/33588912)四、Episodic Curiosity Through Reachabil原创 2021-04-03 22:39:04 · 1550 阅读 · 3 评论 -
Learning Real-World Robot Policies by Dreaming 论文速读
Learning Real-World Robot Policies by Dreaming 论文速读文章目录Learning Real-World Robot Policies by Dreaming 论文速读前言:title: Learning Real World Robot Policies by DreamingMain Idea和model-based的区别,用作者的原话:信息流图不同的实验设置:效果:联系方式:前言:好久没有细看论文了,最近好奇一个新的领域,搜了十几篇文章。但是如果认真原创 2021-03-31 10:47:41 · 233 阅读 · 0 评论 -
~/.bashrc-Linux环境变量配置超详细教程
~/.bashrc-Linux环境变量配置超详细教程文章目录~/.bashrc-Linux环境变量配置超详细教程前言:参考链接:1.最简单的环境变量配置全流程,新手向:1.1 Linux读取环境变量的两种方法2.为同一个环境变量添加多个路径2.1一行式冒号:添加多个路径2.2$PATHNAME实现增量式添加2.2.1利用$PATH在后面!增加!新的路径2.2.2利用$PATH在前面!增加!新的路径3.大括号,单引号,双引号的作用:不加引号的效果:双引号的效果:单引号的效果:总结:联系方式:前言:今天本原创 2021-03-23 19:54:51 · 36139 阅读 · 5 评论 -
python 多层for循环转递归/迭代
python 多层for循环转递归/迭代文章目录python 多层for循环转递归/迭代前言:如何优雅实现不确定层for循环:最优雅例程:itertools.product官方文档翻译:前言:前文要实现python同时启动多个不同参数脚本,但是前提要解决一个问题,如何根据不确定的参数,有序生成参数列表;比如我们的参数字典为:params_dict = { 'lr': [2, 3, 4], "batch": [10, 20, 30], "epoch":原创 2021-03-15 11:06:35 · 2210 阅读 · 1 评论 -
tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验
tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验文章目录tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验前言:影响时间消耗的主要因素待测试实验:基本测试环境1. CPU主频3.2GHz,4核2. 深度学习库版本:3. gym环境-FetchPush-v14. 强化算法:Off-policy RL+HER5.训练流程:20epochs=20 * 50cycles=20 * 50 * 50steps实验结果和分原创 2021-03-11 22:35:51 · 506 阅读 · 0 评论 -
DDPG-终态done对结果的影响探究
DDPG-终态done对结果的影响探究文章目录DDPG-终态done对结果的影响探究前言:设置分类前言:pass设置分类首先发现了一个重要的问题,在gym中,如果不手动设置env.unwraped,那么它会封装不少信息,比如对于最大回合步数。在fetch系列的环境中,最大回合步数是50,且达到50的时候,会返回done=True,其余的done都是False。这个点,是我在调HER算法的时候,一直没有注意到的。我之前直接debug baselines的代码,发现他们的done是固定在step原创 2021-02-13 18:20:07 · 1317 阅读 · 1 评论 -
RLV《Reinforcement Learning with Videos: Combining Offline Observations with Interaction》深度阅读笔记
《Reinforcement Learning with Videos: Combining Offline Observations with Interaction》阅读笔记文章目录《Reinforcement Learning with Videos: Combining Offline Observations with Interaction》阅读笔记前言:开篇几问:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 一句话介绍论文解决的问题:5. 论文背景,领域Advers原创 2021-01-20 13:02:07 · 302 阅读 · 0 评论 -
《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记
《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记文章目录《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记前言:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,领域一句话描述研究背景:实验分析:原创 2021-01-14 22:23:31 · 753 阅读 · 2 评论 -
如何理解MC(n-steps)的方差大,TD-1-steps方差小?
如何理解MC(n-steps)的方差大,TD-1-steps方差小?前言:在多步中,我们需要考虑下面多步的动作和状态,随机性比较大。每次获取的轨迹都可能不一样,另外多步的值的绝对值也比较大,因此方差会随之增大。但是价值函数v(s)的定义就是回报(return)-G_t的期望,即如果我们采样足够多的轨迹,他们的平均,就是v(s),它的偏差为0;而在1-step中,我们只有下一步的信息,比如N个不同的动作,那么状态值函数为V(s)=1N∑n=1NQ(s,an)V(s)=\frac{1}{N}\sum_{原创 2021-01-13 09:32:24 · 443 阅读 · 1 评论 -
为什么Q-learning不用重要性采样(importance sampling)?
为什么Q-learning不用重要性采样(importance sampling)?文章目录为什么Q-learning不用重要性采样(importance sampling)?前言:参考链接:理解过程:1step-Q-learning的定义公式:2step-Q-learning:前言:前几天在整重要性采样,然后提到的一个模糊的概念就是:在异策略(off-policy)方法中,行动策略μ\muμ即用来产生样本的策略,所产生的轨迹概率分布相当于重要性采样中的q[z]q[z]q[z],用来评估和改进的策原创 2021-01-11 12:44:55 · 3417 阅读 · 3 评论 -
重要性采样(Importance Sampling)详细学习笔记
重要性采样(Importance Sampling)透彻学习笔记文章目录重要性采样(Importance Sampling)透彻学习笔记前言:参考主体:on-policy 和 off-policyOn-policy:Off-policy:重要性采样重要性采样后方差的变化-公式推导前言:重要性采样,我在众多算法中都看到的一个操作,比如PER,比如PPO。由于我数学基础实在是太差了,每次看都是迷糊过去,希望下次能看懂,半年前看《深入浅出强化学习》的时候,是理解了的,但是没做笔记,再看的时候就记不起来了…原创 2021-01-08 21:57:02 · 13356 阅读 · 12 评论 -
CER--《A Deeper Look at Experience Replay》阅读笔记
CER–《A Deeper Look at Experience Replay》阅读笔记文章目录CER--《A Deeper Look at Experience Replay》阅读笔记前言:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,领域离线强化学习(off-line RL)集成DQN(ensemble RL)应用场景5. 一句话介绍论文解决的问题:二. 创新点和贡献:三. 相关领域的概述(related work)1. 离线强化Batch-RLc. 作者的方案主要原创 2020-12-30 15:29:34 · 479 阅读 · 0 评论 -
有监督学习还是离线强化(offline-RL)?
有监督学习还是离线强化?文章目录有监督学习还是离线强化?前言:为什么我的强化学习这么智障?Decisions from Data: How Offline Reinforcement Learning Will Change How We Use Machine Learning深度学习和强化学习的区别offline和online的区别。总结:前言:为什么我的强化学习这么智障?相信不少搞强化的同学,都有一个疑惑,强化到底有什么好的?探索成本高,要么瞎探索,要么陷入局部最优学习时间长,仿真实验一原创 2020-12-24 15:29:38 · 2693 阅读 · 0 评论 -
off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析
off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析文章目录off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析前言:重新编辑莫烦的教程:代码:per的优缺点:实验测试结果:前言:之前在【一文弄懂】优先经验回放(PER)论文-算法-代码分析讨论了一下,TD3-PER的效果。但是当时由于忘了per的精髓,也没静下心去看原文。我写错了per中的td_error…将r+gamma*原创 2020-12-23 23:12:48 · 7467 阅读 · 2 评论 -
【一文弄懂】优先经验回放(PER)论文-算法-代码
先放代码吧:"""Deep Deterministic Policy Gradient (DDPG), Reinforcement Learning.DDPG is Actor Critic based algorithm.Pendulum example.View more on my tutorial page: https://morvanzhou.github.io/tutori...原创 2019-08-28 22:25:05 · 13853 阅读 · 7 评论 -
Gym-Fetch-Robotics-obs-reward解析
Gym-Fetch-Robotics-obs-reward解析文章目录Gym-Fetch-Robotics-obs-reward解析前言简单介绍:流程图:FLowchart流程图前言简单介绍:一共八个环境,但是它的dense-reward,都简单的离谱。就直接计算流程图:#mermaid-svg-XQEcANKQrg48b5Hp .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-f原创 2020-11-07 23:20:14 · 1088 阅读 · 0 评论 -
快速安装最新版mujoco200, mujoco-py2.2.0.7,gym[all],robosuite,解决gcc等报错问题
快速安装最新版mujoco, mujoco-py,gym[all],robosuite,解决gcc等报错问题文章目录快速安装最新版mujoco, mujoco-py,gym[all],robosuite,解决gcc等报错问题前言:参考链接:安装步骤1.安装tf-gpu2.安装mujoco2003、mujoco_pymujoco-py常见报错解决:4. gym[all]安装安装gym安装Robosuite前言:这是我第二次记录关于mujoco的问题了,因为mujoco和mujoco_py都更新了,所以上原创 2020-10-11 16:33:10 · 6386 阅读 · 3 评论 -
极简深度强化学习实现-DDPG-TD3-SAC
极简深度强化学习实现-DDPG-TD3-SAC文章目录极简深度强化学习实现-DDPG-TD3-SACgithub地址based on实现目的和学习建议:下一步打算github地址https://github.com/kaixindelele/DRL-tensorflowbased onMy DRL library with tensorflow1.14 core codes based ...原创 2019-10-21 11:02:19 · 6597 阅读 · 3 评论 -
Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
Deep Reinforcement Learning: Pong from PixelsMay 31, 2016This is a long overdue blog post on Reinforcement Learning (RL). RL is hot! You may have noticed that computers can now automatically learn ...翻译 2019-02-13 22:43:03 · 3125 阅读 · 7 评论 -
policy gradient算法原理和代码学习笔记(没价值,看下一篇)
policy gradient算法原理和代码学习笔记(没价值看下一篇)文章目录policy gradient算法原理和代码学习笔记(没价值看下一篇)前言絮叨:需要解决的问题:算法流程图:网络结构图:前言絮叨:这篇博客没啥用,没质量,几乎没有好的信息量,劝退吧,大致算是一个我的笔记本。。。大家英语好的话,直接看这位大佬的介绍,感觉思路更清晰:http://karpathy.github.i...原创 2019-02-13 22:34:53 · 1337 阅读 · 0 评论 -
Records of Reinfocement Learning Experiments
Records of Reinforcement Learning Experiments文章目录Records of Reinforcement Learning ExperimentsBackground and Reference course:the natural DQN in the env of MazeBackground and Reference course:I hav...原创 2019-01-29 10:32:09 · 253 阅读 · 0 评论