深度强化学习实验室：一个“开源开放、共享共进”的强化学习学术组织。

原创第2期技术: Double Q-learning算法原理

Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在，而导致overestimation的主要原因来自于最大化值函数(max)逼近，该过程目标是为了最大的累计期望奖励，而在这个过程中产生了正向偏差。而本文章作者巧妙的是使用了两个估计器(double estimator)去计算Q-learning的值函数，作者将这种方法定义了一个名字叫“Double Q-learning”（本质上一个off-policy算法），并对其收敛过程进行了证明(缺点：

2020-09-07 23:31:04 1813 3

原创第1期技术: DQN算法原理及实现过程

利用神经网络近似值函数的方法表示为：V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a) \hat{V}(s, w) \approx V_{\pi}(s) \\ \hat{q}(s, a, w) \approx q_{\pi}(s, a) V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a)那么具体的工作过程是怎样实现的? 以及如何从端到端的过程，本文将讲解Deep Q Network（DQN, 而这正是由DeepMind于2013年和2015年分别提出的两篇论文《Playi

2020-09-07 23:12:48 4692

原创【总结】为什么对累积奖励减去baseline项能起到减小方差的作用？

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/来源：https://zhuanlan.zh...

2021-08-24 08:26:35 1243

原创【模仿学习】南京大学&港中文联合总结: 29页中文详述模仿学习完整过程

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/来源：南京大学, 香港中文大学团队作者: 许...

2021-08-19 09:54:34 3420

转载【重磅总结】170道强化学习面试题目汇总，助力实验室RLer冲刺求职季！

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/问题汇总蒙特卡洛、TD、动态规划的关系？DQ...

2021-08-11 08:37:38 2027

原创【Mava】一个分布式多智能体强化学习研究框架

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/来源：https://github.com/...

2021-07-30 08:03:10 3508

转载 CORL: 基于变量序和强化学习的因果发现算法

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/来源：诺亚实验室华为诺亚方舟实验室、西安交通...

2021-07-28 14:49:41 3041

转载【Peter Dayan】自然和人工强化学习的结合、以及未来的发展方向

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/来源：AI科技评论作者：Mr Bear、青暮...

2021-07-23 10:47:33 1219

转载【Google最新成果】使用新的物理模拟引擎加速强化学习

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/来源：GoogleAI Blog上一篇文章我...

2021-07-16 09:45:58 1476

转载【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)...

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/人们普遍认为，将传统强化学习与深度神经网络相...

2021-07-14 09:39:34 1161

转载【DRL4IR】SIGIR'21 -第二届信息检索深度强化学习研讨会(7月15-1)

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/会议地址：https://drl4ir.gi...

2021-07-13 08:48:42 485

转载【ICML2021】 9篇RL论文作者汪昭然：构建“元宇宙”和理论基础，让深度强化学习从虚拟走进现实...

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/来源：转载自AI科技评论作者 | 陈彩娴深度...

2021-07-13 08:48:42 2184

转载 ICML RL4RealLife｜聚焦强化学习落地难题，学术与商业巨头齐聚【7月23日，不见不散】...

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/近年来，强化学习（RL）在游戏界的成功在AI...

2021-07-05 17:40:52 545

转载强化学习 | 基于Novelty-Pursuit的高效探索方法

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/Li, Ziniu, and Xiong-H...

2021-06-17 10:13:24 855

转载【华为诺亚方舟实验室】2022届毕业生招聘--决策(强化学习)推理方向

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/来源：华为诺亚方舟实验室官微诺亚方舟实验室（...

2021-06-12 10:20:49 2935

转载【Reward is enough】Sutton、DavidSilver师徒联手：奖励机制足够实现各种目标。

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/作者：小舟、陈萍文章来源：转载自机器之心(链...

2021-06-11 08:58:42 1449

原创【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/作者：深度强化学习实验室来源：整理自http...

2021-06-07 07:55:28 9979

转载【Easy-RL】中科院-清华-北大3位作者贡献的200页强化学习总结笔记

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑：DeepRL核心贡献者：王琦、杨毅远、...

2021-05-24 10:04:35 3867 2

转载京东 | AI人才联合培养计划（NLP项目实战）

01 京东AI项目实战课程安排覆盖了从经典的机器学习、文本处理技术、序列模型、深度学习、预训练模型、知识图谱、图神经网络所有必要的技术。项目一、京东健康智能分诊项目第一周：文本处理与特征工...

2021-05-19 14:36:02 478

原创【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑：DeepRL《强化学习与控制》是一门由...

2021-05-14 09:36:59 5166 4

转载【拒绝内卷】狼吃羊的AI奖励机制不合理：内卷，如何解决？

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/本文转载自：Ai科技评论作者 |耳洞打三金...

2021-03-20 16:39:37 4858 2

原创【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑：DeepRL一、关于FinRL目前，深...

2021-03-15 08:05:44 15801 2

转载【清华&伯克利】提出全新算法RPG，通过奖励随机化发现多智能体游戏中多样性策略行为。

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/作者：本文转载自机器之心编辑、排版：Deep...

2021-03-12 10:56:47 994

转载【招聘推荐】启元世界招聘"深度强化学习"算法工程师

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑、排版：DeepRL深度强化学习算法工程...

2021-03-12 10:56:47 861 1

转载【喜报】“深度强化学习实验室”战略合作伙伴”南栖仙策“完成Pre-A轮融资，高瓴创投领投

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/3月10日，南栖仙策宣布获总额数千万元的Pr...

2021-03-10 11:32:41 489

转载【总结】解决MAPPO（Multi-Agent PPO）问题技巧

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/本文转载自：机器之心清华和UC伯克利联合研究...

2021-03-08 07:52:45 11688 2

原创【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/作者：深度强化学习实验室&AMine...

2021-03-01 08:05:20 3592

转载【华为诺亚方舟实验室】招聘：决策推理(强化学习)研究方向(实习、应届、社招、博后)均可以

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑：DeepRL参与讨论，提问等请注册、登...

2021-02-26 11:46:56 1233 1

转载【Nature重磅】OpenAI科学家提出全新强化学习算法，推动AI向智能体进化

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑：DeepRL近年来，人工智能（AI）在...

2021-02-25 14:31:32 2136

原创【DeepMind】首发并开源Alchemy，一种元强化学习(meta-RL)基准环境。

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑：DeepRL元学习作为一种增加强化学习...

2021-02-15 15:04:39 672 1

转载深度强化学习实验室(http://www.deeprlhub.com)

总结1：周志华 || AI领域如何做研究-写高水平论文总结2：全网首发最全深度强化学习资料(永更)总结3:《强化学习导论》代码/习题答案大全总结4：30+个必知的《人工智能》会议清单总...

2021-02-11 15:37:58 945

转载 NeoRL: 接近真实世界的离线强化学习基准

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/作者：南栖仙策编辑：DeepRL实验室论坛：...

2021-02-10 11:03:12 1226

原创【干货】全面总结(值函数与优势函数)的估计方法

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/作者：高新根博士(DeepRL-Lab研究...

2021-01-25 09:05:50 2699

原创【论文深度研读报告】MuZero算法过程详解

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/作者：饼干Japson(DeepRL-La...

2021-01-19 07:35:00 5764 3

转载南栖仙策强化学习突破发表NeurIPS 2020论文

深度强化学习实验室官网：http://www.neurondance.com/作者：俞扬编辑：DeepRL什么是强化学习2016 年AlphaGo不仅掀起了人工智能的浪潮，也将一个以往关...

2021-01-15 10:30:33 647

转载【实验室顾问】俞扬教授（CCF-IEEE CS青年科学家奖获得者）

深度强化学习实验室官网：http://www.neurondance.com/作者：DeepRL-Lab编辑：DeepRL摘要：CCF与IEEE CS决定授予俞扬博士2020年CCF-I...

2021-01-15 10:30:33 717

原创【喜报】“深度强化学习实验室“与“南栖仙策“达成战略合作

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/作者：DeepRL-Lab &南...

2021-01-15 10:30:33 854 1

转载【方法总结】值分布强化学习（Distributional RL）

深度强化学习实验室官网：http://www.neurondance.com/来源：微软研究院AI头条授权转载编辑：DeepRL值分布强化学习（Distributional Reinfo...

2021-01-13 08:24:30 8697 1

转载如何提高"强化学习算法模型"的泛化能力?

深度强化学习实验室官网：http://www.neurondance.com/来源：https://zhuanlan.zhihu.com/p/328287119作者：网易伏羲实验室编辑：...

2021-01-11 08:00:00 7403

原创【书籍推荐】历时3年，清华大学iDLab实验室打造Reinforcement Learning and Control课程及讲义...

深度强化学习实验室官网：http://www.neurondance.com/来源：http://www.idlab-tsinghua.com/作者：清华大学iDLab实验室编辑：De...

2021-01-08 08:00:00 675

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除