论文阅读笔记
文章平均质量分 82
hehedadaq
强化、图像、机器人相关内容...
强化库:https://github.com/kaixindelele/DRLib
求star~
展开
-
[开学季]ChatPaper全流程教程
这个功能主要适用于大家组会前的论文筛选,写文献综述时的快速筛选。但不建议直接复制chatpaper的生成内容!如果总结内容符合目标要求,一定要自己查阅原文!不是叠buff,是大模型目前实在是无法保证100%的准确率。原创 2023-09-10 13:44:50 · 18445 阅读 · 7 评论 -
GPT4论文翻译 by GPT4 and Human
这篇报告内容太多了!!手动复制粘贴和校准折腾了三个小时!求!整体感受如下,gpt4的全域能力,相比gpt3.5尤其是在专业能力上有着全面提升。提供了一些技术思路,但不多。和之前的HFRL相比,又多了一个基于规则的奖励模型,来重新约束模型的有害输出。还有两个需要关注的点就是,视觉输入,正文讲解的不多,大家可以在其他地方仔细查看另外一个是长文本输入,32K的token,结合长文本,一度让我心灰意冷。但这二者的技术细节,目前我翻译的这部分内容,没有细讲。原创 2023-03-15 23:02:23 · 2993 阅读 · 1 评论 -
Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping论文总结
(1) 首先,文章提到了均衡探索和利用所面临的探索-利用困境,以及以前研究的各种探索思路,如计数方法、好奇心驱动方法等,但此类方法有着各自的局限性。(4) 实现的具体方法包括:使用改变奖励函数的方法,连续控制任务中称为“保守性利用”,离散控制任务中称为“探究精神”,在实验中证明本文的探究方法比传统方法更有效。(3) 在本文的方法中,研究者使用了离线强化学习、在线连续控制以及单步离线好奇心探索任务,测试了不同深度强化学习任务的结果,并通过实验测试了本文方法的效果。原创 2023-03-07 17:23:28 · 366 阅读 · 0 评论 -
论文阅读新神器SciSpace(Typeset.io)测评-和AI一起进化
利用AI快速阅读原创 2023-03-06 23:39:37 · 5679 阅读 · 4 评论 -
写论文不用构建语料库!只需要福昕PDF阅读器高级搜索
New Bing会在科研方面发挥比ChatGPT更强大的辅助作用么?- 强化学徒的回答 - 知乎在写论文的过程中,经常会遇到某些术语在自己的领域该如何表述的难题。即使使用ChatGPT等工具进行润色,也很难直接指导你在专业领域中的术语搭配。最好的方法还是参考你领域内的顶会顶刊文章,查看母语作者的表达方式。通常来说,你会借助谷歌翻译,但它只能告诉你某个搭配是A,而你的大脑却模糊地记得之前在某篇论文中看过,可能是B,但记不得到底是哪篇文章。这时候,大家会想到一个叫“语料库”的古老工具。原创 2023-02-23 17:48:52 · 721 阅读 · 1 评论 -
实用版ChatBing论文阅读助手教程+新测评
AI进化(更新)的速度太快了!距离我上次的,才四天,它已经进化到快能用的地步了!他介绍了新版的edge dev版本浏览器,可以分栏阅读你的pdf文件。他视频做了演示,我这篇帖子,做一个详细的教程,以及测评,把上次网页版的Chat嘴硬的问题拿过来再问一次。另外,我要检测一下,它到底是读取了pdf网页的全文内容,还是只读取了标题,然后去网络上搜索,重新生成。原创 2023-02-18 15:30:05 · 17351 阅读 · 12 评论 -
重生强化【Reincarnating RL】论文梳理
重生强化!原创 2022-12-14 22:10:41 · 395 阅读 · 0 评论 -
A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记
A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记文章目录A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记前言:经典再现:1. diss同行:如何和审稿人battle自己的idea直观:offline的背景知识:TD3+BC的核心内容:前言:最近好奇offline到底目前有哪些靠谱的简洁的工作。然后好几位群友就推荐了TD3作者最新工原创 2021-12-27 00:40:26 · 1161 阅读 · 1 评论 -
《self imitation learning》快速阅读
《self imitation learning》快速阅读文章目录《self imitation learning》快速阅读前言:SIL的核心概念:联系方式:前言:最近对自模仿学习特别感兴趣,因此调研了一堆相关的论文,最经典的一篇自然是《self imitation learning》,称为SIL。刚开始我搜的模仿学习,然后发现行为克隆 behavior cloning,即BC是是最简单的一种模仿学习,然后发现,他们用的都是提前提供好的专家数据,而不是智能体自己探索到的好数据。这个很明显不优雅。看原创 2021-11-24 22:38:18 · 658 阅读 · 0 评论 -
“IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks“快速阅读笔记
IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks 快速阅读笔记即–适用于长期复杂操作任务的宜家家具组装环境文章目录IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks 快速阅读笔记前言:主要内容:前言:昨天在搜behavior cloning的时候,发现了这么一篇神奇的论文,由于是发在了原创 2021-11-20 15:17:48 · 492 阅读 · 0 评论 -
Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读
Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读前言这篇文章看的人不太多的样子,19年的ICML,到现在才有3次引用,还都不是主流的强化算法类的内容。GitHub开源的代码也只有8个star。可见是相当的凉了。全网就白辰甲大佬19年的一篇博客:白辰甲-Trajectory-Based Off-Policy Deep RL,也找不到openreview。但由于我已经打印了它的PDF,论文讲的内容也比较有意思:策略梯度能不能用过去比原创 2021-11-14 22:47:28 · 841 阅读 · 0 评论 -
从 VDN 到 QMIX的学习笔记
从 VDN 到 QMIX的学习笔记文章目录从 VDN 到 QMIX的学习笔记前言:参考链接:VDN的简介:1. 研究背景2.MARL中的难点:2.1.部分可观察2.2. 不稳定性3. 为什么要进行值函数分解4. VDN算法的提出:5.VDN的总结:6.QMIX算法:6.1 重新认识值函数分解6.2 VDN 的缺点6.3 QMIX 的思想6.4 使用 hypernetworks 去利用全局状态s关于这段网络结构的分析:最后的总结:联系方式:前言:这几天看了一下model-based 的dream co原创 2021-11-01 17:15:09 · 3256 阅读 · 1 评论 -
看不完的网页备份列表
看不完的网页备份列表前言:1. 强化学习中的探索与利用(count-based)2. A Dynamic Adjusting Reward Function Method for Deep Reinforcement Learning with Adjustable Parameters3. Understanding the role of the discount factor in reinforcement learning4. TEMPORAL DIFFERENCE MODELS:MOD原创 2021-08-31 20:15:04 · 95 阅读 · 0 评论 -
强化学习-reward-shaping-好奇心驱动-调研
强化学习-reward-shaping-好奇心驱动-调研文章目录强化学习-reward-shaping-好奇心驱动-调研前言:快速阅览:一、Curiosity-driven Exploration by Self-supervised Prediction二、random network distillation三、[好奇心驱动的强化学习:从信息论开始](https://zhuanlan.zhihu.com/p/33588912)四、Episodic Curiosity Through Reachabil原创 2021-04-03 22:39:04 · 1511 阅读 · 3 评论 -
RLV《Reinforcement Learning with Videos: Combining Offline Observations with Interaction》深度阅读笔记
《Reinforcement Learning with Videos: Combining Offline Observations with Interaction》阅读笔记文章目录《Reinforcement Learning with Videos: Combining Offline Observations with Interaction》阅读笔记前言:开篇几问:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 一句话介绍论文解决的问题:5. 论文背景,领域Advers原创 2021-01-20 13:02:07 · 288 阅读 · 0 评论 -
CSDN论文阅读笔记模板框架
《》阅读笔记文章目录《》阅读笔记前言:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,领域5. 应用场景6. 一句话介绍论文解决的问题:二. 创新点和贡献:三. 相关领域的概述(related work)四. 作者的方案五. 主要的信息流(approach)六. 总结:前言:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,领域5. 应用场景6. 一句话介绍论文解决的问题:二. 创新点和贡献:三. 相关领域的概述(re原创 2021-01-17 10:05:08 · 1286 阅读 · 0 评论 -
《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记
《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记文章目录《Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Targe》阅读笔记前言:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,领域一句话描述研究背景:实验分析:原创 2021-01-14 22:23:31 · 742 阅读 · 2 评论 -
【一文弄懂】优先经验回放(PER)论文-算法-代码
先放代码吧:"""Deep Deterministic Policy Gradient (DDPG), Reinforcement Learning.DDPG is Actor Critic based algorithm.Pendulum example.View more on my tutorial page: https://morvanzhou.github.io/tutori...原创 2019-08-28 22:25:05 · 13346 阅读 · 7 评论 -
真 离线强化学习《An Optimistic Perspective on Offline Reinforcement Learning》阅读笔记
真 离线强化学习《An Optimistic Perspective on Offline Reinforcement Learning》阅读笔记文章目录真 离线强化学习《An Optimistic Perspective on Offline Reinforcement Learning》阅读笔记前言:和TD3作者对线咨询作者:同配置,在线vs离线,到底谁更好?强化的分类,不仅是off-policy 和 on-policy参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,原创 2020-07-25 22:30:21 · 2255 阅读 · 5 评论 -
《AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos》阅读笔记
《AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos》阅读笔记文章目录《AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos》阅读笔记前言:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,领域演示学习风格迁移(CycleGAN)应用场景5. 一句话介绍论文解决的问题:二.原创 2020-06-06 14:05:46 · 335 阅读 · 0 评论 -
《Consistent Video Depth Estimation》阅读笔记
《Consistent Video Depth Estimation》阅读笔记文章目录《Consistent Video Depth Estimation》阅读笔记前言:参考链接:一. 论文简介1. 作者:2. 期刊杂志:3. 引用数:4. 论文背景,领域用手机拍摄的视频可以做 3D 重建吗?应用场景5. 一句话介绍论文解决的问题:二. 创新点和贡献:三. 相关领域的概述(related work)1. 单目深度估计2. 三维重建c. 作者的方案主要的信息流(approach)limitations:总结原创 2020-05-23 21:29:57 · 2276 阅读 · 3 评论 -
论文阅读笔记-《Pose-Based View Synthesis for Vehicles: A Perspective Aware Method》
论文阅读笔记-《Pose-Based View Synthesis for Vehicles: A Perspective Aware Method》前言算是开了一个新的栏目?一直看论文不分享,只输入,不输出,效果总感觉不太好。那就尽量每天分享一篇自己的阅读笔记?我看好多大佬都是这么操作的。今天先看看能不能找到一个合适的模式,便于记录,也能让更好的理解文章的思路?行文逻辑用平时汇报的思...原创 2020-05-06 05:24:35 · 1207 阅读 · 0 评论