• 博客(62)
  • 收藏
  • 关注

原创 第2期技术: Double Q-learning算法原理

Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在,而导致overestimation的主要原因来自于最大化值函数(max)逼近,该过程目标是为了最大的累计期望奖励,而在这个过程中产生了正向偏差。而本文章作者巧妙的是使用了两个估计器(double estimator)去计算Q-learning的值函数,作者将这种方法定义了一个名字叫“Double Q-learning”(本质上一个off-policy算法),并对其收敛过程进行了证明(缺点:

2020-09-07 23:31:04 1461 1

原创 第1期技术: DQN算法原理及实现过程

利用神经网络近似值函数的方法表示为:V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a) \hat{V}(s, w) \approx V_{\pi}(s) \\ \hat{q}(s, a, w) \approx q_{\pi}(s, a) V^(s,w)≈Vπ​(s)q^​(s,a,w)≈qπ​(s,a)那么具体的工作过程是怎样实现的? 以及如何从端到端的过程,本文将讲解Deep Q Network(DQN, 而这正是由DeepMind于2013年和2015年分别提出的两篇论文《Playi

2020-09-07 23:12:48 4061

原创 【总结】为什么对累积奖励减去baseline项能起到减小方差的作用?

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:https://zhuanlan.zh...

2021-08-24 08:26:35 773

原创 【模仿学习】南京大学&港中文联合总结: 29页中文详述模仿学习完整过程

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:南京大学, 香港中文大学团队作者: 许...

2021-08-19 09:54:34 2280

转载 【重磅总结】170道强化学习面试题目汇总,助力实验室RLer冲刺求职季!

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/问题汇总蒙特卡洛、TD、动态规划的关系?DQ...

2021-08-11 08:37:38 1221

原创 【Mava】一个分布式多智能体强化学习研究框架

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:https://github.com/...

2021-07-30 08:03:10 2813

转载 CORL: 基于变量序和强化学习的因果发现算法

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:诺亚实验室华为诺亚方舟实验室、西安交通...

2021-07-28 14:49:41 2129

转载 【Peter Dayan】自然和人工强化学习的结合、以及未来的发展方向

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:AI科技评论作者:Mr Bear、青暮...

2021-07-23 10:47:33 809

转载 【Google最新成果】使用新的物理模拟引擎加速强化学习

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:GoogleAI Blog上一篇文章我...

2021-07-16 09:45:58 832

转载 【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)...

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/人们普遍认为,将传统强化学习与深度神经网络相...

2021-07-14 09:39:34 783

转载 【DRL4IR】SIGIR'21 -第二届信息检索深度强化学习研讨会(7月15-1)

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/会议地址:https://drl4ir.gi...

2021-07-13 08:48:42 343

转载 【ICML2021】 9篇RL论文作者汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实...

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:转载自AI科技评论作者 | 陈彩娴深度...

2021-07-13 08:48:42 1745

转载 ICML RL4RealLife|聚焦强化学习落地难题,学术与商业巨头齐聚【7月23日,不见不散】...

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/近年来,强化学习(RL)在游戏界的成功在AI...

2021-07-05 17:40:52 426

转载 强化学习 | 基于Novelty-Pursuit的高效探索方法

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/Li, Ziniu, and Xiong-H...

2021-06-17 10:13:24 636

转载 【华为诺亚方舟实验室】2022届毕业生招聘--决策(强化学习)推理方向

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:华为诺亚方舟实验室官微诺亚方舟实验室(...

2021-06-12 10:20:49 2517

转载 【Reward is enough】Sutton、DavidSilver师徒联手:奖励机制足够实现各种目标。

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:小舟、陈萍文章来源:转载自机器之心(链...

2021-06-11 08:58:42 1228

原创 【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:深度强化学习实验室来源:整理自http...

2021-06-07 07:55:28 8653

转载 【Easy-RL】中科院-清华-北大3位作者贡献的200页强化学习总结笔记

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL核心贡献者:王琦、杨毅远、...

2021-05-24 10:04:35 3126 1

转载 京东 | AI人才联合培养计划(NLP项目实战)

01 京东AI项目实战课程安排覆盖了从经典的机器学习、文本处理技术、序列模型、深度学习、预训练模型、知识图谱、图神经网络所有必要的技术。项目一、京东健康智能分诊项目第一周:文本处理与特征工...

2021-05-19 14:36:02 332

原创 【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL《强化学习与控制》是一门由...

2021-05-14 09:36:59 3849 2

转载 【拒绝内卷】狼吃羊的AI奖励机制不合理: 内卷,如何解决?

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/本文转载自:Ai科技评论作者 |耳洞打三金...

2021-03-20 16:39:37 3925 2

原创 【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL一、关于FinRL目前,深...

2021-03-15 08:05:44 12227 2

转载 【清华&伯克利】提出全新算法RPG,通过奖励随机化发现多智能体游戏中多样性策略行为。

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:本文转载自机器之心编辑、排版:Deep...

2021-03-12 10:56:47 795

转载 【招聘推荐】启元世界招聘"深度强化学习"算法工程师

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑、排版:DeepRL深度强化学习算法工程...

2021-03-12 10:56:47 709 1

转载 【喜报】“深度强化学习实验室”战略合作伙伴”南栖仙策“完成Pre-A轮融资,高瓴创投领投

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/3月10日,南栖仙策宣布获总额数千万元的Pr...

2021-03-10 11:32:41 372

转载 【总结】解决MAPPO(Multi-Agent PPO)问题技巧

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/本文转载自:机器之心清华和UC伯克利联合研究...

2021-03-08 07:52:45 8749 2

原创 【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:深度强化学习实验室&AMine...

2021-03-01 08:05:20 3013

转载 【华为诺亚方舟实验室】招聘:决策推理(强化学习)研究方向(实习、应届、社招、博后)均可以

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL参与讨论,提问等请注册、登...

2021-02-26 11:46:56 1090 1

转载 【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL近年来,人工智能(AI)在...

2021-02-25 14:31:32 1446

原创 【DeepMind】首发并开源Alchemy,一种元强化学习(meta-RL)基准环境。

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL元学习作为一种增加强化学习...

2021-02-15 15:04:39 564 1

转载 深度强化学习实验室(http://www.deeprlhub.com)

总结1:周志华 || AI领域如何做研究-写高水平论文总结2:全网首发最全深度强化学习资料(永更)总结3:《强化学习导论》代码/习题答案大全总结4:30+个必知的《人工智能》会议清单总...

2021-02-11 15:37:58 767

转载 NeoRL: 接近真实世界的离线强化学习基准

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:南栖仙策编辑:DeepRL实验室论坛:...

2021-02-10 11:03:12 1033

原创 【干货】全面总结(值函数与优势函数)的估计方法

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:高新根博士(DeepRL-Lab研究...

2021-01-25 09:05:50 2102

原创 【论文深度研读报告】MuZero算法过程详解

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:饼干Japson(DeepRL-La...

2021-01-19 07:35:00 4428 3

转载 南栖仙策强化学习突破发表NeurIPS 2020论文

深度强化学习实验室官网:http://www.neurondance.com/作者:俞扬编辑:DeepRL什么是强化学习2016 年AlphaGo不仅掀起了人工智能的浪潮,也将一个以往关...

2021-01-15 10:30:33 499

转载 【实验室顾问】俞扬教授 (CCF-IEEE CS青年科学家奖获得者)

深度强化学习实验室官网:http://www.neurondance.com/作者:DeepRL-Lab编辑:DeepRL摘要:CCF与IEEE CS决定授予俞扬博士2020年CCF-I...

2021-01-15 10:30:33 576

原创 【喜报】“深度强化学习实验室“与“南栖仙策“达成战略合作

深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:DeepRL-Lab &南...

2021-01-15 10:30:33 712 1

转载 【方法总结】值分布强化学习(Distributional RL)

深度强化学习实验室官网:http://www.neurondance.com/来源:微软研究院AI头条授权转载编辑:DeepRL值分布强化学习(Distributional Reinfo...

2021-01-13 08:24:30 5812 1

转载 如何提高"强化学习算法模型"的泛化能力?

深度强化学习实验室官网:http://www.neurondance.com/来源:https://zhuanlan.zhihu.com/p/328287119作者:网易伏羲实验室编辑:...

2021-01-11 08:00:00 5537

原创 【书籍推荐】历时3年,清华大学iDLab实验室打造Reinforcement Learning and Control课程及讲义...

深度强化学习实验室官网:http://www.neurondance.com/来源:http://www.idlab-tsinghua.com/作者:清华大学iDLab实验室编辑:De...

2021-01-08 08:00:00 551

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除