DRLib
文章平均质量分 86
基于Spinning Up的加强版强化库,一点一点小功能的添加~
hehedadaq
强化、图像、机器人相关内容...
强化库:https://github.com/kaixindelele/DRLib
求star~
展开
-
GymFetch-插孔-开抽屉任务介绍
GymFetch-插孔开抽屉任务介绍文章目录GymFetch-插孔开抽屉任务介绍前言:插孔任务介绍:插孔任务observation的设置:最终效果:联系方式:前言:最近做HER相关对比实验,需要几个验证仿真环境,所以仿照原版gym-fetch的封装格式,借用了metaworld的素材,为了和push,pick有所区别,所以重新搭建了两个环境,一个是随机插孔任务,一个是开抽屉任务。前者目前看来是符合需要的。后者面临着穿模的问题,后面会有所讨论。开源链接:https://github.com/kaixi原创 2022-03-22 20:11:41 · 604 阅读 · 0 评论 -
强化学习采样频率和更新频率的关系探讨
强化学习采样频率和更新频率的关系探讨文章目录强化学习采样频率和更新频率的关系探讨前言:问题起源:潜在的缺陷--限制了batch-size的设定:updata_every=1的情况下,batch-size的增加会性能降低:联系方式:前言:这个问题很多做强化的朋友都遇到过,今天中午答应群友今天要写出来,尽管少了几组实验没做,但是先勉强凑出一个文档解析吧。并且可能因为我关键词没找对,我只在spinningup的代码中,看到了一个update every的关键词,但是搜索起来,好像也没有太多帖子和论文(只看原创 2021-10-23 20:25:13 · 2661 阅读 · 0 评论 -
mujoco机器人建模教程和优质资源总结-长期更新
mujoco机器人建模教程和优质资源总结-长期更新前言最近要利用mujoco搭建一个定制化的击球模型,有一些基础的功能我找不到实现的例程。因此想着能不能做一个归纳和总结,在准备向社区“白嫖”之前,先分享一下我之前的一些经验。将分为下面几个步骤开始:mujoco安装教程mujoco的注册问题mujoco-py常见bug;mujoco-py的系列例程基于mujoco-py的机器人仿真优质代码库推荐;优质博客推荐待解决问题一、mujoco安装教程:Linux系统完善教程,兼容Ubu原创 2021-05-03 23:12:02 · 5433 阅读 · 1 评论 -
在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验
在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验文章目录在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验前言:episode-reward-图:pick-and-place:push:三维性能统计图:pick-and-place:push:简单的结论:联系方式:前言:因为我一直在做稀疏奖励相关的探索,所以对HER的稀疏奖励函数设置,充满了好奇,特别想知道,他的奖励函数非得设置成{-1, 0}吗?即任务没有完成的所有step奖励为-1,任务完成给奖励0.设置成其原创 2021-04-22 22:19:31 · 516 阅读 · 1 评论 -
matplotlib均值和方差图-多组成功率为例-代码
matplotlib多组均值和方差图-成功率为例文章目录matplotlib多组均值和方差图-成功率为例前言:实际效果:前言:虽然主流的强化很少有成功率的柱状图表示,但是在机械臂任务中,还是有不少成功率的展示,因此将这个脚本优化精简分享出来了。供大家参考一下~实际效果:代码:""""@Author : kaixindelele,"@Contact : CSDN: https://blog.csdn.net/hehedadaq;知乎: https://www.zhihu.c原创 2021-02-21 00:56:57 · 2517 阅读 · 0 评论 -
【spinning up】2.2 功能超全的强化学习画图脚本
功能超全的强化学习画图脚本相比于原始的Spinning up 的plot.py文件,增加了如下的功能:原始图:线条多一点,就根本分不清谁是谁了。因此加了很多功能:可以直接在pycharm或者vscode执行,也可以用命令行传参;按exp_name排序,而不是按时间排序;固定好每个exp_name的颜色;可以调节曲线的线宽,便于观察;保存图片到本地,便于远程ssh画图~自动显示全屏图片自适应针对颜色不敏感的人群,可以在每条legend上注明性能值,和性能序号seaborn版本原创 2021-04-06 16:30:45 · 1562 阅读 · 5 评论 -
【Spinning Up】5.1.一文弄懂序列化模块json、pickle和cloudpickle
【Spinning Up】pickle和cloudpickle模块描述文章目录【Spinning Up】pickle和cloudpickle模块描述前言:简介:前言:最近在花大量的时间去解析spinning up的多进程并行模块,由于我没有相关的基础,官方的文档在这块也是略过。甚至连第三方博客都非常少,让我极为头疼。因此只能花苦功夫,把它的并行模块,每一句都弄明白…前段时间看了mpi4py, subprocess, 修饰器,lambda,等花里胡哨的操作。今天轮到pickle了。简介:pi原创 2021-03-10 21:42:25 · 1856 阅读 · 5 评论 -
【Spinning up】2.1、将Matplotlib自动全屏显示和保存图像(Saving Matplotlib graphs to image as full screen)
将Matplotlib自动全屏显示和保存图像(Saving Matplotlib graphs to image as full screen)前言:每次matplotlib画图都是一个小图,然后手动调整为全屏,再手动调整图片的位置,简直恶心透了。今天趁机将自动全屏的问题解决了。参考链接:将Matplotlib图形保存为全屏图像(Saving Matplotlib graphs to image as full screen)解决方案The method you use to maximis原创 2021-04-06 14:40:34 · 5891 阅读 · 3 评论 -
【spinning up】代码详解目录
【spinning up】代码详解目录文章目录【spinning up】代码详解目录前言:1.【Spinning Up】实验输出2.【Spinning Up】绘制结果3. Spinning Up】一文弄懂序列化模块json、pickle和cloudpickle4.【Spinning Up】parse_args(argsparse):python和命令行之间的交互5.【付费】spinup的run_utils,实现批量调参,极简模式6.【付费】python同时启动多个不同参数脚本联系方式:前言:前段时间将原创 2021-03-18 12:10:25 · 1088 阅读 · 0 评论 -
【Spinning Up】四、极简版并行网格搜索的脚本
【Spinning Up】python同时启动多个不同参数脚本文章目录【Spinning Up】python同时启动多个不同参数脚本前言:mpi_fork()函数详解:tune_mpi_funcs极简例程:tune_func.py: 待执行函数run_entrypoint.py 入口函数tune_exps.py 调用主函数:打印结果:联系方式:前言:上篇文章说到,利用spinup的run_entrypoint.py可以实现依次批量调参,但这个仍然不能利用好,我们电脑上的其他CPU核心,每次只能等一个参原创 2021-03-15 15:20:11 · 1046 阅读 · 2 评论 -
【Spinning Up】六、spinup的run_utils,实现批量调参,极简模式
【Spinning Up】spinup的run_utils,实现批量调参,极简模式文章目录【Spinning Up】spinup的run_utils,实现批量调参,极简模式前言:tune_funcs极简例程:联系方式:前言:关于这个批量调参的功能,spinup的官方文档就简单几句话:Spinning Up ships with a tool called ExperimentGrid for making hyperparameter ablations easier. This is based原创 2021-03-12 10:50:37 · 823 阅读 · 0 评论 -
【Spinning Up】五、parse_args(argsparse):python和命令行之间的交互
【Spinning Up】parse_args(argsparse):python和命令行之间的交互文章目录【Spinning Up】parse_args(argsparse):python和命令行之间的交互前言:例子:联系方式前言:spinning up的代码看起来实在是太痛苦了。花里胡哨的操作debug简直要人命。基础的Python知识,面对高段位的功能,无从下手。没人请教,只好一个一个知识点的搜索,去弄懂它的每一个信息流。在entry_point.py这个文件中,有一个操作是,获取编码过原创 2021-03-09 21:41:07 · 430 阅读 · 0 评论 -
【Spinning Up】2. 实验输出
目录1. 算法输出2. 保存目录(save directory)位置3. 载入并运行训练的策略4.调用价值函数5. 联系方式转载链接:https://blog.csdn.net/wudixi/article/details/104447010备注:在Spinning Up当前的实现中,没有方法重新开始训练未完成训练的智能体(partially-trained agents)。我自己实现了一半的功能,将buffer存到本地,将policy net参数存到本地,勉强算可以.转载 2021-02-24 22:33:27 · 1166 阅读 · 0 评论 -
【Spinning Up】三、绘制结果
【Spinning Up】绘制结果文章目录【Spinning Up】绘制结果路径参数示意图:可选参数解析:联系方式转载链接:https://blog.csdn.net/WUDIxi/article/details/104448418Spinning Up自带了一个plotting模块,用来绘制输出,调用格式如下:python -m spinup.run plot [path/to/output_directory ...] [--legend [LEGEND ...]] [--xaxis转载 2021-02-24 22:10:17 · 1324 阅读 · 0 评论 -
【Spinning up】零、DRLib:一个简洁的强化学习库,集成了HER和PER
DRLib:一个简洁的强化学习库,集成了HER和PERMy DRL library with tensorflow1.14 and pytorch, add HER and PER, core codes based on https://github.com/openai/spinningup前言:求star,欢迎开issues!主要的框架,基于spinningup。目前分享出来的有,tf1和torch版本的主流offpolicy强化算法,DDPG,SAC,TD3,对每个算法都增加了非常简洁的*原创 2021-02-23 23:29:22 · 1769 阅读 · 0 评论 -
off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析
off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析文章目录off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析前言:重新编辑莫烦的教程:代码:per的优缺点:实验测试结果:前言:之前在【一文弄懂】优先经验回放(PER)论文-算法-代码分析讨论了一下,TD3-PER的效果。但是当时由于忘了per的精髓,也没静下心去看原文。我写错了per中的td_error…将r+gamma*原创 2020-12-23 23:12:48 · 7463 阅读 · 2 评论