- 博客(192)
- 收藏
- 关注

原创 MicroPython使用ESP32控制板入门到放弃
MicroPython使用ESP32控制板入门到放弃文章目录MicroPython使用ESP32控制板入门到放弃前言参考链接:购置链接:thonny配置OLED显示前言WEMOS LOLIN32 Lite V1.0.0 - wifi & bluetooth board based ESP-32 Rev1 MicroPython 4MB FLASHMicroPython使用ESP32控制板入门到放弃这个板子的关键词应该就是上面的几个了。参考链接:使用ESP32控制板(一):WEMOS
2021-05-11 22:29:30
1361

原创 ubuntu从安装到python环境配置系列教程总目录-新手必看
ubuntu从安装到环境配置系列教程目录文章目录ubuntu从安装到环境配置系列教程目录前言:一、Ubuntu 安装1.1 ubuntu14.04+ROS(indigo) 安装配置+虚拟机VMware一站式配置教程(一)二、ubuntu开发的常用高效配置2.1 Ubuntu终端配置:颜色、大小写不敏感、上键搜索字符串开头的历史命令、右键显示打开终端_ubuntu一站式配置教程(二)2.2 ubuntu16.04安装Google浏览器和搜狗拼音输入法_ubuntu一站式配置教程2.3 Ubuntu中pych
2021-04-10 11:15:20
497

原创 【spinning up】代码详解目录
【spinning up】代码详解目录文章目录【spinning up】代码详解目录前言:1.【Spinning Up】实验输出2.【Spinning Up】绘制结果3. Spinning Up】一文弄懂序列化模块json、pickle和cloudpickle4.【Spinning Up】parse_args(argsparse):python和命令行之间的交互5.【付费】spinup的run_utils,实现批量调参,极简模式6.【付费】python同时启动多个不同参数脚本联系方式:前言:前段时间将
2021-03-18 12:10:25
825

原创 tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验
tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验文章目录tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验前言:影响时间消耗的主要因素待测试实验:基本测试环境1. CPU主频3.2GHz,4核2. 深度学习库版本:3. gym环境-FetchPush-v14. 强化算法:Off-policy RL+HER5.训练流程:20epochs=20 * 50cycles=20 * 50 * 50steps实验结果和分
2021-03-11 22:35:51
398

原创 【Spinning up】零、DRLib:一个简洁的强化学习库,集成了HER和PER
DRLib:一个简洁的强化学习库,集成了HER和PERMy DRL library with tensorflow1.14 and pytorch, add HER and PER, core codes based on https://github.com/openai/spinningup前言:求star,欢迎开issues!主要的框架,基于spinningup。目前分享出来的有,tf1和torch版本的主流offpolicy强化算法,DDPG,SAC,TD3,对每个算法都增加了非常简洁的*
2021-02-23 23:29:22
1309

原创 重要性采样(Importance Sampling)详细学习笔记
重要性采样(Importance Sampling)透彻学习笔记文章目录重要性采样(Importance Sampling)透彻学习笔记前言:参考主体:on-policy 和 off-policyOn-policy:Off-policy:重要性采样重要性采样后方差的变化-公式推导前言:重要性采样,我在众多算法中都看到的一个操作,比如PER,比如PPO。由于我数学基础实在是太差了,每次看都是迷糊过去,希望下次能看懂,半年前看《深入浅出强化学习》的时候,是理解了的,但是没做笔记,再看的时候就记不起来了…
2021-01-08 21:57:02
9509
12

原创 off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析
off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析文章目录off-policy全系列(DDPG-TD3-SAC-SAC-auto)+优先经验回放PER-代码-实验结果分析前言:重新编辑莫烦的教程:代码:per的优缺点:实验测试结果:前言:之前在【一文弄懂】优先经验回放(PER)论文-算法-代码分析讨论了一下,TD3-PER的效果。但是当时由于忘了per的精髓,也没静下心去看原文。我写错了per中的td_error…将r+gamma*
2020-12-23 23:12:48
4443
1

原创 pip install torch 在线安装!非离线!
pip install torch 在线安装!非离线!亲测好使!文章目录pip install torch 在线安装!非离线!亲测好使!前言:pytorch在线安装步骤:前言:百度竟然搜不到一个靠谱的pip在线安装torch的教程?实验室的人都在说离线下载,再安装?换国内源,虽然刚开始很快,但是下载到一半,就会出现下面的bug:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host=‘pypi.tun
2020-12-21 18:40:41
3541
1

原创 OpenCV-真实场景红色物块三维坐标检测
OpenCV-真实场景红色物块三维坐标检测文章目录OpenCV-真实场景红色物块三维坐标检测前言:效果图:功能描述代码链接:前言:这个项目,当初给别人提供解决方案的时候,可是值1.5k的~有时候不得不说,程序员这个行业内卷是有道理的,好东西都开源了,从业者还怎么吃老本恰饭。一方面新手可以快速从开源社区获取最新的学习资源,另一方面老人面临技术的快速迭代更新,很容易被淘汰。太难了,大家都是时代的一滴小水珠,不断的成为被拍打的前浪。效果图:功能描述直接看b站的视频吧,这是我第一次尝试正式录一
2020-11-24 21:47:49
909
4

原创 强化学习-在线可视化-值迭代-karpathy-以及我自己的DQN-格子世界可视化
强化学习-在线可视化-值迭代-karpathy文章目录强化学习-在线可视化-值迭代-karpathy前言:网页链接:前言:之前因为好奇值迭代的具体过程,所以搜了一下可视化的工具和内容。发现了这个特别好使的网页!虽然我自己也写了一个简版的格子世界,值迭代可视化版本,但是和这个相比,启动起来还是太麻烦了…等我有空开源一下~但是半年后的今天,我竟然忘了这个网页叫啥来着,搜了好久,才找到。想着在博客记录一下,才好网页链接:https://cs.stanford.edu/people/karpat
2020-08-20 16:35:23
775

原创 机械臂正运动学-DH参数-Python快速实现
机械臂正运动学-DH参数-Python快速实现文章目录机械臂正运动学-DH参数-Python快速实现前言:整体思路流程:学习资料核心概念:DH参数的理解。DH参数的定义:建立坐标系矩阵变换公式:最后直接上代码吧:前言:最近在玩一个非常弱智的机械臂,好多功能都没有,连个配套的仿真环境都没, 虚拟边界和碰撞检测的功能都非常难用。没办法,我只能自己实现一个简陋的虚拟边界功能,这必须要在已知关节角的情况下,提前计算出每个关节的三维坐标。这里的问题凝结为输入输出就是:已知: 机械臂的关节长度,关节构型
2020-06-21 13:16:40
4343
7

原创 Python动态调节参数-滑动条-pygame和cv2
Python动态调节参数-滑动条-pygame和cv2文章目录Python动态调节参数-滑动条-pygame和cv2前言:OpenCV的垃圾实现:pygame 动态调参:前言:最近在整动态调参,然后每次修改参数,重启启动程序过于复杂,因此,结合网上资源,造了一个轮子,刚开始找到的是cv2的滑动条,然后发现,滑动条过于呆板,初始值设定,滑动条位置,以及最小值设定都不能调整。就感觉很蠢,不适合我需要的从-90,90这样的调节范围。因此想着thinkter能不能做,然后没发现,最后找pygame这种做游
2020-06-10 11:06:29
2472

原创 【一文弄懂】张正友标定法-完整学习笔记-从原理到实战
张正友标定法-完整学习笔记-从原理到实战文章目录张正友标定法-完整学习笔记-从原理到实战(零)前言:1 为什么需要标定?2 相机标定的已知条件和待求解是什么?标定前的已知条件:待求信息:(一)概念介绍和成像几何模型1.张正友标定处于什么水平,为啥提到相机标定,就不得不提他张博士的方法?2 简单介绍张博士----张氏标定法发明人3【WHY:为什么要进行相机标定?】4【HOW:相机标定的原理】在这里...
2020-04-27 23:52:41
22901
41

原创 ubuntu下极简安装显卡驱动-tensorflow-gpu通用教程-不用手动安装cuda和cudnn
安装anaconda,换成中科大源,网上随便找!创建一个虚拟环境:conda create -n gtf matplotlib numpy pillow yaml python=2.7gtf 为虚拟环境的名字,后面的是需要装的包,Python可以选2.7也可以选3.5 ,直接安装就好了激活环境:source activate gtf安装tensorflow-gpu: co...
2018-09-29 18:03:23
1276
7
原创 关于GPT4权力追求的担忧
GPT4的发布让全球都将目光聚焦到OpenAI上,相比昨天百度的文心一言拉跨的发布会。即便GPT4的技术报告论文,没有公布技术细节,98页的PDF透露出的信息量也足以颠覆三观!GPT-4技术报告翻译by GPT4 and Human Feedback,其中最让我担心的一点就是里面提了一句的power-seeking这个词!这个是中文互联网上极少有讨论的点,我作为一个不愿被AI进化速度淘汰的博士生,想将这个点,尽快的,详细的分享给大家,以引起大家的重视。
2023-03-17 14:00:20
335
1
原创 GPT4论文翻译 by GPT4 and Human
这篇报告内容太多了!!手动复制粘贴和校准折腾了三个小时!求!整体感受如下,gpt4的全域能力,相比gpt3.5尤其是在专业能力上有着全面提升。提供了一些技术思路,但不多。和之前的HFRL相比,又多了一个基于规则的奖励模型,来重新约束模型的有害输出。还有两个需要关注的点就是,视觉输入,正文讲解的不多,大家可以在其他地方仔细查看另外一个是长文本输入,32K的token,结合长文本,一度让我心灰意冷。但这二者的技术细节,目前我翻译的这部分内容,没有细讲。
2023-03-15 23:02:23
2048
1
原创 Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping论文总结
(1) 首先,文章提到了均衡探索和利用所面临的探索-利用困境,以及以前研究的各种探索思路,如计数方法、好奇心驱动方法等,但此类方法有着各自的局限性。(4) 实现的具体方法包括:使用改变奖励函数的方法,连续控制任务中称为“保守性利用”,离散控制任务中称为“探究精神”,在实验中证明本文的探究方法比传统方法更有效。(3) 在本文的方法中,研究者使用了离线强化学习、在线连续控制以及单步离线好奇心探索任务,测试了不同深度强化学习任务的结果,并通过实验测试了本文方法的效果。
2023-03-07 17:23:28
63
原创 写论文不用构建语料库!只需要福昕PDF阅读器高级搜索
New Bing会在科研方面发挥比ChatGPT更强大的辅助作用么?- 强化学徒的回答 - 知乎在写论文的过程中,经常会遇到某些术语在自己的领域该如何表述的难题。即使使用ChatGPT等工具进行润色,也很难直接指导你在专业领域中的术语搭配。最好的方法还是参考你领域内的顶会顶刊文章,查看母语作者的表达方式。通常来说,你会借助谷歌翻译,但它只能告诉你某个搭配是A,而你的大脑却模糊地记得之前在某篇论文中看过,可能是B,但记不得到底是哪篇文章。这时候,大家会想到一个叫“语料库”的古老工具。
2023-02-23 17:48:52
453
原创 实用版ChatBing论文阅读助手教程+新测评
AI进化(更新)的速度太快了!距离我上次的,才四天,它已经进化到快能用的地步了!他介绍了新版的edge dev版本浏览器,可以分栏阅读你的pdf文件。他视频做了演示,我这篇帖子,做一个详细的教程,以及测评,把上次网页版的Chat嘴硬的问题拿过来再问一次。另外,我要检测一下,它到底是读取了pdf网页的全文内容,还是只读取了标题,然后去网络上搜索,重新生成。
2023-02-18 15:30:05
14651
12
原创 python 科学计数法 转 字符串表述
python 科学计数法 转 字符串表述文章目录python 科学计数法 转 字符串表述前言:需求:代码:前言:好久没有写博客了,写一个今天需要的一个小玩意儿,网上没有找到一个方便的解决方案,我写一个试试:需求:输入:a = 10000.0或者:a = 1e5我想要快速获得一个它的字符串表述方法,最好不用调用函数,一两行代码就解决问题。代码:buffer_size = 12303000.0# buffer_size = 1.23e6postive_str = str(buffe
2022-05-09 16:21:04
1526
原创 GymFetch-插孔-开抽屉任务介绍
GymFetch-插孔开抽屉任务介绍文章目录GymFetch-插孔开抽屉任务介绍前言:插孔任务介绍:插孔任务observation的设置:最终效果:联系方式:前言:最近做HER相关对比实验,需要几个验证仿真环境,所以仿照原版gym-fetch的封装格式,借用了metaworld的素材,为了和push,pick有所区别,所以重新搭建了两个环境,一个是随机插孔任务,一个是开抽屉任务。前者目前看来是符合需要的。后者面临着穿模的问题,后面会有所讨论。开源链接:https://github.com/kaixi
2022-03-22 20:11:41
384
原创 新版GitHub客户端上传文件夹教程笔记
新版GitHub客户端上传文件夹教程笔记文章目录新版GitHub客户端上传文件夹教程笔记前言:上传文件夹步骤:前言:相信很多人和我一样,用GitHub的目的就是上传一下自己的代码,并不想学什么花里胡哨的命令行操作,搞什么版本更新管理。简单的网页上传只能上传同一个文件夹下的批量文件,但是不能把文件夹里的文件夹一起迭代上传。因此对于这种复杂需求,我们还是得想想办法。办法不是廖雪峰老师那个复杂的教程:https://www.liaoxuefeng.com/wiki/896043488029600办法是期
2022-03-22 16:12:15
1131
原创 ubuntu配置FTP服务教程
ubuntu配置FTP服务教程文章目录ubuntu配置FTP服务教程前言:教程:前言:局域网内各个主机的代码和数据迁移,实在是一个比较难搞的事儿。之前试过scp复制,但是不能用鼠标操作,不够方便。也试过局域网内的网盘,然后发现我们的网盘经常掉线,也不是很舒服。直到一个师弟提到,可以用FTP服务器。这个存在于高中信息课中的概念,我之前从来没有玩过。于是看着网上的教程配置了一下,确实非常方便。教程:1, 假设我面前的是主机A,需要获取主机B上的文件,即需要把主机B当成ftp服务器,那么需要在
2022-02-22 20:40:48
611
原创 mujoco获取rgb_array报错Failed to initialize OpenGL
mujoco获取rgb_array报错Failed to initialize OpenGL前言:时间紧急,直接贴出源帖子;参考链接:Failed to load OpenGL: Found 0 GPUs for rendering. Using device 0.Desktop (please complete the following information):OS: ubuntu 20.04Python Version 3.8.10Mujoco Version 2.1mujoco-
2022-02-18 23:06:18
1054
原创 三七的活血化瘀和止血机制学习笔记
三七的活血化瘀和止血机制学习笔记文章目录三七的活血化瘀和止血机制学习笔记前言:文献一:《景天三七对阿司匹林大鼠的止血活血功效及作用机制研究》三七的止血与活血机制文献二:《三七活血与止血机制及其改善肾脏病血瘀证的作用特点》三七的止血机制三七的活血机制总结:前言:最近和朋友聊到中医,我印象中最靠谱的一个偏方用到了三七,然后我在生活中试了四个人,效果都比较好。但是没有搜到合适的机制来解释这件事儿,今天上午知网调研了一下,按照他们的参考文献,不断的溯源,勉强拿到了这样一个逻辑。关于我说的偏方,由于我也不是
2022-02-02 17:48:10
537
原创 深度强化学习Actor-Critic的更新逻辑梳理笔记
深度强化学习Actor-Critic的更新逻辑梳理笔记文章目录深度强化学习Actor-Critic的更新逻辑梳理笔记前言:Actor-Critic架构简介:critic的更新逻辑actor的更新逻辑:前言:前几天在给师弟讲actor-critic架构更新逻辑的时候,actor的优化逻辑我卡了好一会儿,最终也没有完整的把逻辑梳理出来,今天刚好趁着脑子清醒,把之前的PPT拿出来,借着PPT的内容,将AC架构的更新逻辑说明白,特此做一个笔记。Actor-Critic架构简介:关于AC架构,还是简单的说说
2022-01-15 22:03:18
1512
原创 180天如何突击高考2-从465到378...
180天如何突击高考2-从465到378…文章目录180天如何突击高考2-从465到378...前言:关于遍历的策略关于英语学习的小技巧。关于其他技巧和心态的梳理关于下一步计划:前言:上次写了《180天如何突击高考-从400到550?》之后,我隐约感觉大侄子的情绪已经被暂时的成绩提升所影响,开始对学习已经有了一些超越现实的信心。说到最近考的卷子,都是感觉非常简单,但很明显上次他说的简单的卷子,也只拿了465。不出太多的意外,最近这次皖八二模就只考了378分。尤其是理化生三门课,加一起一百分左右。一
2022-01-02 02:39:18
169
原创 A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记
A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记文章目录A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记前言:经典再现:1. diss同行:如何和审稿人battle自己的idea直观:offline的背景知识:TD3+BC的核心内容:前言:最近好奇offline到底目前有哪些靠谱的简洁的工作。然后好几位群友就推荐了TD3作者最新工
2021-12-27 00:40:26
656
1
原创 知网下载PDF方法
知网下载PDF方法文章目录知网下载PDF方法前言海外版知网下载PDF详细教程前言又到了开题中期的日子,又不得不用知网了。知网是真滴恶心,直接中文版进入,很多论文都无法下载PDF版本,只能下载caj。而caj阅读体验大家都清楚。之前在网上搜了一圈下载PDF版本的方法。总结出这样一个比较靠谱的路子。海外版知网下载PDF详细教程进入海外版链接:https://oversea.cnki.net/kns/defaultresult/index搜索你需要的中文关键词,会出现对应的英文文章,但其
2021-12-17 12:00:35
3065
原创 《因果推断学习》学习笔记
《因果推断学习》学习笔记文章目录《因果推断学习》学习笔记前言:学习链接:因果推断学习1 --- Simpson's paradox因果图的解析因果推断学习2 --- 相关性!=因果性因果推断学习3 --- 随机试验(最核心)总结:前言:今天看到师妹课上学到了因果推断这个知识点,关于这个点,我仅有的认知仍然是感性的,模糊的,单纯的几个概念:相关性≠因果性如果因为幸存者偏差,会导致错误归因。每一点认知,我都会关联到一些具体的例子,比如《大数据时代》这本书中的经典案例:“尿布与啤酒”,每逢周末,某
2021-12-16 22:47:29
357
原创 180天如何突击高考-从400到550?
180天如何突击高考-从400到550?文章目录180天如何突击高考-从400到550?前言:前情提要:三次谈话之一国庆谈话:三次谈话之二成绩下降:三次谈话之三 成绩提高50总结和求助:前言:这是一个非常有意思的事情,以至于我不得不将这段时间的经历记录下来。一方面方便复盘,一方面也是有些地方我的方法也不是最优方法,期待大家能够给予一些帮助,最后万一这段经历对大家也有帮助呢?先把问题抛出来,大家才会有兴趣继续往下看~小明同学,一个身处“普通班”,数学基础差,理综几乎没基础,总分400分左右,几乎没
2021-12-04 16:10:23
180
原创 《self imitation learning》快速阅读
《self imitation learning》快速阅读文章目录《self imitation learning》快速阅读前言:SIL的核心概念:联系方式:前言:最近对自模仿学习特别感兴趣,因此调研了一堆相关的论文,最经典的一篇自然是《self imitation learning》,称为SIL。刚开始我搜的模仿学习,然后发现行为克隆 behavior cloning,即BC是是最简单的一种模仿学习,然后发现,他们用的都是提前提供好的专家数据,而不是智能体自己探索到的好数据。这个很明显不优雅。看
2021-11-24 22:38:18
464
原创 “IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks“快速阅读笔记
IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks 快速阅读笔记即–适用于长期复杂操作任务的宜家家具组装环境文章目录IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks 快速阅读笔记前言:主要内容:前言:昨天在搜behavior cloning的时候,发现了这么一篇神奇的论文,由于是发在了
2021-11-20 15:17:48
353
原创 Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读
Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读前言这篇文章看的人不太多的样子,19年的ICML,到现在才有3次引用,还都不是主流的强化算法类的内容。GitHub开源的代码也只有8个star。可见是相当的凉了。全网就白辰甲大佬19年的一篇博客:白辰甲-Trajectory-Based Off-Policy Deep RL,也找不到openreview。但由于我已经打印了它的PDF,论文讲的内容也比较有意思:策略梯度能不能用过去比
2021-11-14 22:47:28
762
原创 Q = defaultdict(lambda: np.zeros(env.action_space.n))语句解析
Q = defaultdict(lambda: np.zeros(env.action_space.n))语句解析前言:再看蒙特卡洛搜索树的代码时,看到了一个Q的初始化定义语句如上形式,一时间没看明白。搜了一下每个部分的含义之后,才知道整句话到底实现了什么功能。首先后面的部分是非常简单的,env.action_space.n直接是一个动作数目,假设是n,np.zeros()函数也简单,直接创建一个初始值为0的n维数组.理解default_dict和lambda的作用难以理解的是那个default_
2021-11-13 20:54:13
1295
原创 从 VDN 到 QMIX的学习笔记
从 VDN 到 QMIX的学习笔记文章目录从 VDN 到 QMIX的学习笔记前言:参考链接:VDN的简介:1. 研究背景2.MARL中的难点:2.1.部分可观察2.2. 不稳定性3. 为什么要进行值函数分解4. VDN算法的提出:5.VDN的总结:6.QMIX算法:6.1 重新认识值函数分解6.2 VDN 的缺点6.3 QMIX 的思想6.4 使用 hypernetworks 去利用全局状态s关于这段网络结构的分析:最后的总结:联系方式:前言:这几天看了一下model-based 的dream co
2021-11-01 17:15:09
1510
原创 强化学习采样频率和更新频率的关系探讨
强化学习采样频率和更新频率的关系探讨文章目录强化学习采样频率和更新频率的关系探讨前言:问题起源:潜在的缺陷--限制了batch-size的设定:updata_every=1的情况下,batch-size的增加会性能降低:联系方式:前言:这个问题很多做强化的朋友都遇到过,今天中午答应群友今天要写出来,尽管少了几组实验没做,但是先勉强凑出一个文档解析吧。并且可能因为我关键词没找对,我只在spinningup的代码中,看到了一个update every的关键词,但是搜索起来,好像也没有太多帖子和论文(只看
2021-10-23 20:25:13
1757
原创 mujoco开源后第一天你关心的事儿
mujoco开源后第一天你关心的事儿仿真部分的源代码:https://github.com/deepmind/mujoco/blob/main/sample/simulate.cc上面源代码主文件和文档的对应关系可以看:https://mujoco.readthedocs.io/en/latest/programming.html更新版本的文档:https://mujoco.readthedocs.io/en/latest/overview.html 对很多问题有更详细的介绍,适合深入开发的人员观看
2021-10-19 11:01:33
451
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人