为什么强化学习会成为当下机器学习最火的研究领域?


强化学习(reinforcement learning),是机器学习的一个重要分支,也是当下机器学习最火热的研究领域。强化学习的本质是解决决策问题,针对一个具体问题得到一个最优的策略,使得在该策略下获得的奖励最大。


强化学习是我们以及几乎所有动物学习的重要模式。举个简单的例子:我们在训练幼年的狗狗学习“坐下”这个技能时,狗狗刚开始时通常会尝试做出很多动作以吸引我们的注意,但是只有当坐下时,才能得到奖励(吃美味的零食),做其它动作时,没有奖励。重复尝试几次后,狗狗就会经常做出“坐下”这个决策。


640?wx_fmt=jpeg

(图片来源于网络)


强化学习的思想与人类的学习过程有很大的相似性,因此被认为是迈向通用人工智能的重要途径。首位美国人工智能协会(AAAI)华人Fellow,国际顶级学术会议KDD、IJCAI等大会主席,香港科技大学杨强教授说“深度学习是昨天,强化学习是今天”。

随着数据处理能力的逐步提升以及深度学习的发展,强化学习解决复杂问题的能力也得到了较大的提高,除应用于机器人控制、无人驾驶、游戏博弈,还应用于制造业、电商广告推荐等与我们生活息息相关的领域中。

640?wx_fmt=jpeg

(图片来源于网络)

强化学习已经引起国内外足够的关注,但由于中文资料少之又少,国内鲜有高校开设系统性的课程,入门难度较大。深蓝学院联合中科院自动化所、清华大学相关领域的老师和研究生,打磨推出『强化学习理论与实践』在线课程。课程通过理论与代码实践,让大家掌握算法的核心思想,并安排Project大作业,体验强化学习的实际应用。


640?wx_fmt=png

课程团队

640?wx_fmt=png


张启超   中科院自动化所复杂系统管理与控制国家重点实验室助理研究员,中科院自动化所博士,研究方向为强化学习、自适应动态规划及博弈论。在顶级期刊和会议TNNLS、TCYB、IEEE CIM、WCCI上以第一作者身份发表十多篇文章,获得中科院院长优秀奖、北京市优秀毕业生等,团队在2017中国智能车未来挑战赛中获得两项冠军(离线测试比赛前方车辆检测、前方车辆距离监测)。

陈达贵   清华大学自动化系控制理论研究所硕士生,主要研究方向是深度强化学习的理论和计算图形学,具有丰富的深度学习和深度强化学习实践经验。


640?wx_fmt=png

课程内容

640?wx_fmt=png


第1章 概述

1.1 强化学习问题

1.2 强化学习的组成

1.3 智能体的组成

1.4 强化学习的分类

1.5 强化学习中的关键概念

1.6 编程实践:环境和随机策略

第2章 马尔可夫决策过程

2.1 马尔可夫过程

2.2 马尔可夫奖励过程

2.3 有限马尔可夫决策过程

2.4 马尔可夫决策过程的引申

2.5 编程实践:马尔可夫决策过程

第3章 动态规划

3.1 动态规划简介

3.2 策略评价

3.3 策略提升

3.4 策略迭代

3.5 值迭代

3.6 动态规划引申

3.7 编程实践:在Gridworld上的策略迭代和值迭代

第4章 无模型方法一:蒙特卡洛

4.1 无模型方法简介

4.2 On-policy和Off-policy

4.3 蒙特卡洛方法简介

4.4 蒙特卡洛评价

4.5 蒙特卡洛优化

4.6 增量算法

4.7 编程实践:蒙特卡洛方法

第5章 无模型方法二:时间差分

5.1 时间差分简介

5.2 时间差分评价

5.3 SARSA

5.4 Q学习

5.5 编程实践:TD算法

第6章 无模型方法三:多步自举

6.1 多步自举简介

6.2 TD(lambda)

6.3 SARSA(lambda)

6.4 off-policy下的多步自举

6.5 编程实践:n-step TD

第7章 函数近似与深度网络

7.1 函数近似

7.2 梯度下降算法

7.3 深度学习基础

7.4 编程实践:深度学习框架

第8章 策略梯度算法

8.1 策略梯度简介

8.2 策略梯度定理

8.3 REINFORCE规则

8.4 Actor-Critic算法

8.5 TRPO算法

8.6 编程实践:AC算法

第9章 深度强化学习

9.1 DQN

9.2 A3C

9.3 DDPG

9.4 PPO

9.5 编程实践:Atari游戏

第10章 基于模型的强化学习

10.1 基于模型的强化学习简介

10.2 基于模型的规划

10.3 Dyna算法

10.4 基于仿真的搜索

第11章 前景与大作业

11.1 探索和利用        

11.2 基于模型的强化学习方法

11.3 分层强化学习      

11.4 反强化学习和示范学习

11.5 多智能体强化学习  

11.6 记忆和注意力机制

11.7 元学习

11.8 Project大作业


640?wx_fmt=png

课程目标

640?wx_fmt=png


本课程主要面向初学者,讲述强化学习的基础理论,介绍强化学习的基本应用,给学员建立系统的强化学习理论体系。同时,本课程会带领学员了解其相关的最新技术,解决复杂环境下的强化学习问题。


640?wx_fmt=png

课程特色

640?wx_fmt=png


1、课程学习结束,根据每次作业的分数,评选优秀学员;

2、优秀学员获得深蓝学院颁发的证书; 

3、优秀学员推荐至企业实习或者就业,有机会获得旷视科技(Face++)2000元奖学金。


640?wx_fmt=png

先修课程

640?wx_fmt=png

高等数学、线性代数、概率论、Python等


640?wx_fmt=png

报名方式

640?wx_fmt=png


200位报名的同学可添加助教欣然微信(shenlan-xinran)领取100元的早鸟报名优惠券。

640?wx_fmt=jpeg


点击“阅读原文”,了解旷视(Face++)奖学金

展开阅读全文

没有更多推荐了,返回首页