RL
文章平均质量分 85
hehedadaq
强化、图像、机器人相关内容...
强化库:https://github.com/kaixindelele/DRLib
求star~
展开
-
重生强化【Reincarnating RL】论文梳理
重生强化!原创 2022-12-14 22:10:41 · 395 阅读 · 0 评论 -
A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记
A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记文章目录A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记前言:经典再现:1. diss同行:如何和审稿人battle自己的idea直观:offline的背景知识:TD3+BC的核心内容:前言:最近好奇offline到底目前有哪些靠谱的简洁的工作。然后好几位群友就推荐了TD3作者最新工原创 2021-12-27 00:40:26 · 1161 阅读 · 1 评论 -
《self imitation learning》快速阅读
《self imitation learning》快速阅读文章目录《self imitation learning》快速阅读前言:SIL的核心概念:联系方式:前言:最近对自模仿学习特别感兴趣,因此调研了一堆相关的论文,最经典的一篇自然是《self imitation learning》,称为SIL。刚开始我搜的模仿学习,然后发现行为克隆 behavior cloning,即BC是是最简单的一种模仿学习,然后发现,他们用的都是提前提供好的专家数据,而不是智能体自己探索到的好数据。这个很明显不优雅。看原创 2021-11-24 22:38:18 · 658 阅读 · 0 评论 -
“IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks“快速阅读笔记
IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks 快速阅读笔记即–适用于长期复杂操作任务的宜家家具组装环境文章目录IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks 快速阅读笔记前言:主要内容:前言:昨天在搜behavior cloning的时候,发现了这么一篇神奇的论文,由于是发在了原创 2021-11-20 15:17:48 · 492 阅读 · 0 评论 -
从 VDN 到 QMIX的学习笔记
从 VDN 到 QMIX的学习笔记文章目录从 VDN 到 QMIX的学习笔记前言:参考链接:VDN的简介:1. 研究背景2.MARL中的难点:2.1.部分可观察2.2. 不稳定性3. 为什么要进行值函数分解4. VDN算法的提出:5.VDN的总结:6.QMIX算法:6.1 重新认识值函数分解6.2 VDN 的缺点6.3 QMIX 的思想6.4 使用 hypernetworks 去利用全局状态s关于这段网络结构的分析:最后的总结:联系方式:前言:这几天看了一下model-based 的dream co原创 2021-11-01 17:15:09 · 3256 阅读 · 1 评论 -
tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验
tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验文章目录tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验前言:影响时间消耗的主要因素待测试实验:基本测试环境1. CPU主频3.2GHz,4核2. 深度学习库版本:3. gym环境-FetchPush-v14. 强化算法:Off-policy RL+HER5.训练流程:20epochs=20 * 50cycles=20 * 50 * 50steps实验结果和分原创 2021-03-11 22:35:51 · 488 阅读 · 0 评论 -
DDPG-终态done对结果的影响探究
DDPG-终态done对结果的影响探究文章目录DDPG-终态done对结果的影响探究前言:设置分类前言:pass设置分类首先发现了一个重要的问题,在gym中,如果不手动设置env.unwraped,那么它会封装不少信息,比如对于最大回合步数。在fetch系列的环境中,最大回合步数是50,且达到50的时候,会返回done=True,其余的done都是False。这个点,是我在调HER算法的时候,一直没有注意到的。我之前直接debug baselines的代码,发现他们的done是固定在step原创 2021-02-13 18:20:07 · 1262 阅读 · 1 评论 -
《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记
《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记文章目录《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记前言:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,领域一句话描述研究背景:实验分析:原创 2021-01-14 22:23:31 · 742 阅读 · 2 评论 -
强化学习-在线可视化-值迭代-karpathy-以及我自己的DQN-格子世界可视化
强化学习-在线可视化-值迭代-karpathy文章目录强化学习-在线可视化-值迭代-karpathy前言:网页链接:前言:之前因为好奇值迭代的具体过程,所以搜了一下可视化的工具和内容。发现了这个特别好使的网页!虽然我自己也写了一个简版的格子世界,值迭代可视化版本,但是和这个相比,启动起来还是太麻烦了…等我有空开源一下~但是半年后的今天,我竟然忘了这个网页叫啥来着,搜了好久,才找到。想着在博客记录一下,才好网页链接:https://cs.stanford.edu/people/karpat原创 2020-08-20 16:35:23 · 964 阅读 · 0 评论 -
Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
Deep Reinforcement Learning: Pong from PixelsMay 31, 2016This is a long overdue blog post on Reinforcement Learning (RL). RL is hot! You may have noticed that computers can now automatically learn ...翻译 2019-02-13 22:43:03 · 3026 阅读 · 7 评论 -
policy gradient算法原理和代码学习笔记(没价值,看下一篇)
policy gradient算法原理和代码学习笔记(没价值看下一篇)文章目录policy gradient算法原理和代码学习笔记(没价值看下一篇)前言絮叨:需要解决的问题:算法流程图:网络结构图:前言絮叨:这篇博客没啥用,没质量,几乎没有好的信息量,劝退吧,大致算是一个我的笔记本。。。大家英语好的话,直接看这位大佬的介绍,感觉思路更清晰:http://karpathy.github.i...原创 2019-02-13 22:34:53 · 1328 阅读 · 0 评论 -
Records of Reinfocement Learning Experiments
Records of Reinforcement Learning Experiments文章目录Records of Reinforcement Learning ExperimentsBackground and Reference course:the natural DQN in the env of MazeBackground and Reference course:I hav...原创 2019-01-29 10:32:09 · 243 阅读 · 0 评论