- 博客(62)
- 收藏
- 关注
原创 第2期技术: Double Q-learning算法原理
Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在,而导致overestimation的主要原因来自于最大化值函数(max)逼近,该过程目标是为了最大的累计期望奖励,而在这个过程中产生了正向偏差。而本文章作者巧妙的是使用了两个估计器(double estimator)去计算Q-learning的值函数,作者将这种方法定义了一个名字叫“Double Q-learning”(本质上一个off-policy算法),并对其收敛过程进行了证明(缺点:
2020-09-07 23:31:04 1601 1
原创 第1期技术: DQN算法原理及实现过程
利用神经网络近似值函数的方法表示为:V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a) \hat{V}(s, w) \approx V_{\pi}(s) \\ \hat{q}(s, a, w) \approx q_{\pi}(s, a) V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a)那么具体的工作过程是怎样实现的? 以及如何从端到端的过程,本文将讲解Deep Q Network(DQN, 而这正是由DeepMind于2013年和2015年分别提出的两篇论文《Playi
2020-09-07 23:12:48 4447
原创 【总结】为什么对累积奖励减去baseline项能起到减小方差的作用?
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:https://zhuanlan.zh...
2021-08-24 08:26:35 898
原创 【模仿学习】南京大学&港中文联合总结: 29页中文详述模仿学习完整过程
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:南京大学, 香港中文大学团队作者: 许...
2021-08-19 09:54:34 2896
转载 【重磅总结】170道强化学习面试题目汇总,助力实验室RLer冲刺求职季!
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/问题汇总蒙特卡洛、TD、动态规划的关系?DQ...
2021-08-11 08:37:38 1497
原创 【Mava】一个分布式多智能体强化学习研究框架
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:https://github.com/...
2021-07-30 08:03:10 3091
转载 CORL: 基于变量序和强化学习的因果发现算法
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:诺亚实验室华为诺亚方舟实验室、西安交通...
2021-07-28 14:49:41 2529
转载 【Peter Dayan】自然和人工强化学习的结合、以及未来的发展方向
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:AI科技评论作者:Mr Bear、青暮...
2021-07-23 10:47:33 941
转载 【Google最新成果】使用新的物理模拟引擎加速强化学习
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:GoogleAI Blog上一篇文章我...
2021-07-16 09:45:58 1065
转载 【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)...
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/人们普遍认为,将传统强化学习与深度神经网络相...
2021-07-14 09:39:34 946
转载 【DRL4IR】SIGIR'21 -第二届信息检索深度强化学习研讨会(7月15-1)
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/会议地址:https://drl4ir.gi...
2021-07-13 08:48:42 400
转载 【ICML2021】 9篇RL论文作者汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实...
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:转载自AI科技评论作者 | 陈彩娴深度...
2021-07-13 08:48:42 1937
转载 ICML RL4RealLife|聚焦强化学习落地难题,学术与商业巨头齐聚【7月23日,不见不散】...
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/近年来,强化学习(RL)在游戏界的成功在AI...
2021-07-05 17:40:52 495
转载 强化学习 | 基于Novelty-Pursuit的高效探索方法
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/Li, Ziniu, and Xiong-H...
2021-06-17 10:13:24 766
转载 【华为诺亚方舟实验室】2022届毕业生招聘--决策(强化学习)推理方向
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/来源:华为诺亚方舟实验室官微诺亚方舟实验室(...
2021-06-12 10:20:49 2775
转载 【Reward is enough】Sutton、DavidSilver师徒联手:奖励机制足够实现各种目标。
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:小舟、陈萍文章来源:转载自机器之心(链...
2021-06-11 08:58:42 1328
原创 【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:深度强化学习实验室来源:整理自http...
2021-06-07 07:55:28 9265
转载 【Easy-RL】中科院-清华-北大3位作者贡献的200页强化学习总结笔记
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL核心贡献者:王琦、杨毅远、...
2021-05-24 10:04:35 3428 2
转载 京东 | AI人才联合培养计划(NLP项目实战)
01 京东AI项目实战课程安排覆盖了从经典的机器学习、文本处理技术、序列模型、深度学习、预训练模型、知识图谱、图神经网络所有必要的技术。项目一、京东健康智能分诊项目第一周:文本处理与特征工...
2021-05-19 14:36:02 402
原创 【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL《强化学习与控制》是一门由...
2021-05-14 09:36:59 4547 2
转载 【拒绝内卷】狼吃羊的AI奖励机制不合理: 内卷,如何解决?
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/本文转载自:Ai科技评论作者 |耳洞打三金...
2021-03-20 16:39:37 4433 2
原创 【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL一、关于FinRL目前,深...
2021-03-15 08:05:44 13932 2
转载 【清华&伯克利】提出全新算法RPG,通过奖励随机化发现多智能体游戏中多样性策略行为。
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:本文转载自机器之心编辑、排版:Deep...
2021-03-12 10:56:47 878
转载 【招聘推荐】启元世界招聘"深度强化学习"算法工程师
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑、排版:DeepRL深度强化学习算法工程...
2021-03-12 10:56:47 800 1
转载 【喜报】“深度强化学习实验室”战略合作伙伴”南栖仙策“完成Pre-A轮融资,高瓴创投领投
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/3月10日,南栖仙策宣布获总额数千万元的Pr...
2021-03-10 11:32:41 435
转载 【总结】解决MAPPO(Multi-Agent PPO)问题技巧
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/本文转载自:机器之心清华和UC伯克利联合研究...
2021-03-08 07:52:45 10277 2
原创 【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:深度强化学习实验室&AMine...
2021-03-01 08:05:20 3324
转载 【华为诺亚方舟实验室】招聘:决策推理(强化学习)研究方向(实习、应届、社招、博后)均可以
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL参与讨论,提问等请注册、登...
2021-02-26 11:46:56 1167 1
转载 【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL近年来,人工智能(AI)在...
2021-02-25 14:31:32 1880
原创 【DeepMind】首发并开源Alchemy,一种元强化学习(meta-RL)基准环境。
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL元学习作为一种增加强化学习...
2021-02-15 15:04:39 618 1
转载 深度强化学习实验室(http://www.deeprlhub.com)
总结1:周志华 || AI领域如何做研究-写高水平论文总结2:全网首发最全深度强化学习资料(永更)总结3:《强化学习导论》代码/习题答案大全总结4:30+个必知的《人工智能》会议清单总...
2021-02-11 15:37:58 878
转载 NeoRL: 接近真实世界的离线强化学习基准
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:南栖仙策编辑:DeepRL实验室论坛:...
2021-02-10 11:03:12 1139
原创 【干货】全面总结(值函数与优势函数)的估计方法
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:高新根博士(DeepRL-Lab研究...
2021-01-25 09:05:50 2367
原创 【论文深度研读报告】MuZero算法过程详解
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:饼干Japson(DeepRL-La...
2021-01-19 07:35:00 5017 3
转载 南栖仙策强化学习突破发表NeurIPS 2020论文
深度强化学习实验室官网:http://www.neurondance.com/作者:俞扬编辑:DeepRL什么是强化学习2016 年AlphaGo不仅掀起了人工智能的浪潮,也将一个以往关...
2021-01-15 10:30:33 579
转载 【实验室顾问】俞扬教授 (CCF-IEEE CS青年科学家奖获得者)
深度强化学习实验室官网:http://www.neurondance.com/作者:DeepRL-Lab编辑:DeepRL摘要:CCF与IEEE CS决定授予俞扬博士2020年CCF-I...
2021-01-15 10:30:33 647
原创 【喜报】“深度强化学习实验室“与“南栖仙策“达成战略合作
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:DeepRL-Lab &南...
2021-01-15 10:30:33 791 1
转载 【方法总结】值分布强化学习(Distributional RL)
深度强化学习实验室官网:http://www.neurondance.com/来源:微软研究院AI头条授权转载编辑:DeepRL值分布强化学习(Distributional Reinfo...
2021-01-13 08:24:30 7187 1
转载 如何提高"强化学习算法模型"的泛化能力?
深度强化学习实验室官网:http://www.neurondance.com/来源:https://zhuanlan.zhihu.com/p/328287119作者:网易伏羲实验室编辑:...
2021-01-11 08:00:00 6404
原创 【书籍推荐】历时3年,清华大学iDLab实验室打造Reinforcement Learning and Control课程及讲义...
深度强化学习实验室官网:http://www.neurondance.com/来源:http://www.idlab-tsinghua.com/作者:清华大学iDLab实验室编辑:De...
2021-01-08 08:00:00 619
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人