深度强化学习实验室
官网:http://www.neurondance.com/
论坛:http://deeprl.neurondance.com/
编辑:DeepRL
《强化学习与控制》是一门由清华大学智能驾驶课题组李升波教授亲自讲授的强化学习课程,该课程总共包含11讲,以理论基础与算法设计融合的方式介绍了RL的框架体系,从优化角度梳理了直接法与间接法,带模型与免模型等类别,并对典型算法原理和特性进行了分析和总结,是一门兼顾基础入门、进阶提升的强化学习课程。
一、关于课题组
智能驾驶课题组(iDLab, Intelligent Driving Lab)
面向下一代机器学习和自动控制的交叉理论探索,聚焦智能网联汽车和驾驶辅助系统的核心技术研发,进一步提升汽车的智能性、安全性和节能性。
http://www.idlab-tsinghua.com/thulab/labweb/index.html
二、关于主讲老师:李升波教授
李升波,清华大学长聘教授,博导,车辆学院副院长。留学于斯坦福大学,密歇根大学和加州伯克利大学。从事自动驾驶、智能汽车、强化学习、最优控制等研究。发表论文110余篇,引用>8500次,H因子45。入选IEEE高关注度及封面论文3篇,ESI高引10篇(学科前1%),学术会议最佳论文奖8次。获中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。入选国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、中国汽车行业优秀青年科技人才奖、首届北京市基金委杰青、清华大学教师学术新人奖等。担任AI国际评测MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的全球理事会委员、IEEE Trans on ITS副主编等。
三、关于《强化学习与控制》课程
目前,人工智能的快速崛起正重塑人类社会的各个领域,有望引导工业文明进入新一轮革命浪潮。以道路交通为例,汽车的智能化变革促使整个行业发生了翻天覆地的变化,包括驾驶辅助、自动驾驶、云控协同等一系列新技术如雨后春笋般涌现,它们在提升地面车辆行驶性能的同时,也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。
以模仿人类大脑学习机制为原理的强化学习(RL,Reinforcement Learning)正迅速进入人们的视野,它为大规模复杂系统的学习及动态系统的高实时在线控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能:它利用深度强化学习算法实现围棋智能的自我进化,自我超越,打败人类最好的专业棋手。尽管强化学习具有优异的潜在优势,但是该方法的工程应用尚属于起步阶段。
《强化学习与控制》这一门课程包括11节。
第1讲介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。
第2讲介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。
第3讲介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。
第4讲介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。
第5讲介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。
第6讲介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。
第7讲介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。
第8讲介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。
第9讲介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。
第10讲介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系
第11讲介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。
---------------------------------------------------
pdf合集下载地址
https://pan.baidu.com/s/1Z5pWdckre1pQYmgB5IaXHg
提取码: ycqv
或直接登录论坛(阅读原文)下载
http://deeprl.neurondance.com/d/287
---------------------------------------------------
四、部分PPT展示
---------------------------------------------------
所有pdf下载地址
https://pan.baidu.com/s/1Z5pWdckre1pQYmgB5IaXHg
提取码: ycqv
或直接登录论坛(阅读原文)下载
http://deeprl.neurondance.com/
---------------------------------------------------
完
总结3: 《强化学习导论》代码/习题答案大全
总结6: 万字总结 || 强化学习之路
完
第106篇:奖励机制不合理:内卷,如何解决?
第105篇:FinRL: 一个量化金融自动交易RL库
第104篇:RPG: 通过奖励发现多智能体多样性策略
第103篇:解决MAPPO(Multi-Agent PPO)技巧
第102篇:82篇AAAI2021强化学习论文接收列表
第101篇:OpenAI科学家提出全新强化学习算法
第100篇:Alchemy: 元强化学习(meta-RL)基准环境
第98篇:全面总结(值函数与优势函数)的估计方法
第97篇:MuZero算法过程详细解读
第96篇: 值分布强化学习(Distributional RL)总结
第95篇:如何提高"强化学习算法模型"的泛化能力?
第94篇:多智能体强化学习《星际争霸II》研究
第93篇:MuZero在Atari基准上取得了新SOTA效果
第91篇:详解用TD3算法通关BipedalWalker环境
第88篇:分层强化学习(HRL)全面总结
第85篇:279页总结"基于模型的强化学习方法"
第84篇:阿里强化学习领域研究助理/实习生招聘
第83篇:180篇NIPS2020顶会强化学习论文
第81篇:《综述》多智能体强化学习算法理论研究
第80篇:强化学习《奖励函数设计》详细解读
第79篇: 诺亚方舟开源高性能强化学习库“刑天”
第77篇:深度强化学习工程师/研究员面试指南
第75篇:Distributional Soft Actor-Critic算法
第74篇:【中文公益公开课】RLChina2020
第73篇:Tensorflow2.0实现29种深度强化学习算法
第72篇:【万字长文】解决强化学习"稀疏奖励"
第71篇:【公开课】高级强化学习专题
第70篇:DeepMind发布"离线强化学习基准“
第66篇:分布式强化学习框架Acme,并行性加强
第65篇:DQN系列(3): 优先级经验回放(PER)
第64篇:UC Berkeley开源RAD来改进强化学习算法
第61篇:David Sliver 亲自讲解AlphaGo、Zero
第59篇:Agent57在所有经典Atari 游戏中吊打人类
第58篇:清华开源「天授」强化学习平台
第57篇:Google发布"强化学习"框架"SEED RL"
第53篇:TRPO/PPO提出者John Schulman谈科研
第52篇:《强化学习》可复现性和稳健性,如何解决?
第51篇:强化学习和最优控制的《十个关键点》
第50篇:微软全球深度强化学习开源项目开放申请
第49篇:DeepMind发布强化学习库 RLax
第48篇:AlphaStar过程详解笔记
第47篇:Exploration-Exploitation难题解决方法
第45篇:DQN系列(1): Double Q-learning
第44篇:科研界最全工具汇总
第42篇:深度强化学习入门到精通资料综述
第41篇:顶会征稿 || ICAPS2020: DeepRL
第40篇:实习生招聘 || 华为诺亚方舟实验室
第39篇:滴滴实习生|| 深度强化学习方向
第37篇:Call For Papers# IJCNN2020-DeepRL
第36篇:复现"深度强化学习"论文的经验之谈
第35篇:α-Rank算法之DeepMind及Huawei改进
第34篇:从Paper到Coding, DRL挑战34类游戏
第31篇:强化学习,路在何方?
第30篇:强化学习的三种范例
第29篇:框架ES-MAML:进化策略的元学习方法
第28篇:138页“策略优化”PPT--Pieter Abbeel
第27篇:迁移学习在强化学习中的应用及最新进展
第26篇:深入理解Hindsight Experience Replay
第25篇:10项【深度强化学习】赛事汇总
第24篇:DRL实验中到底需要多少个随机种子?
第23篇:142页"ICML会议"强化学习笔记
第22篇:通过深度强化学习实现通用量子控制
第21篇:《深度强化学习》面试题汇总
第20篇:《深度强化学习》招聘汇总(13家企业)
第19篇:解决反馈稀疏问题之HER原理与代码实现
第17篇:AI Paper | 几个实用工具推荐
第16篇:AI领域:如何做优秀研究并写高水平论文?
第15篇:DeepMind开源三大新框架!
第13篇:OpenSpiel(28种DRL环境+24种DRL算法)
第11篇:DRL在Unity自行车环境中配置与实践
第8篇:ReinforceJS库(动态展示DP、TD、DQN)
第5篇:深度强化学习在阿里巴巴的技术演进
第4篇:深度强化学习十大原则
第2篇:深度强化学习的加速方法