为什么强化学习会成为当下机器学习最火的研究领域?

美国首位人工智能协会(AAAI)华人Fellow,国际顶级学术会议KDD、IJCAI等大会主席,香港科技大学杨强教授曾说:“深度学习是昨天,强化学习是今天。”

现在但凡写人工智能的文章,必提AlphaGo。因为AlphaGo在围棋人机大战中里程碑式的胜利,人工智能迎来了新的春天,同时,正是AlphaGo的问世,将强化学习的研究推向了新的高度,使得强化学习成为当下机器学习最火热的研究领域。

强化学习(或者增强学习)本质是解决决策问题,针对一个具体问题得到一个最优的策略,使得在该策略下获得的奖励最大。它的思想与人类的学习过程有很大的相似性,是一种基于环境反馈而做决策的通用框架,因此被认为是迈向通用人工智能的重要途径。

640?wx_fmt=png

随着数据处理能力的逐步提升以及深度学习的发展,强化学习解决复杂问题的能力也得到了较大的提高,除应用于机器人控制、无人驾驶、游戏博弈,还应用于制造业、电商广告推荐等与我们生活息息相关的领域中。

640?wx_fmt=png

虽然强化学习已经引起国内外足够的关注,但由于中文资料少之又少,国内鲜有高校开设系统性的课程,同时缺乏相互交流的圈子。深蓝学院联合中科院自动化所、清华大学的老师和研究生,打磨推出『强化学习理论与实践』在线课程。课程通过理论与代码实践,让大家掌握算法的核心思想,并安排Project大作业,体验强化学习的实际应用;同时,建立课程答疑群,便于相互交流学习。


640?wx_fmt=png

课程团队

640?wx_fmt=png

张启超   中科院自动化所复杂系统管理与控制国家重点实验室助理研究员,中科院自动化所博士,研究方向为强化学习、自适应动态规划及博弈论。在顶级期刊和会议TNNLS、TCYB、IEEE CIM、WCCI上以第一作者身份发表十多篇文章,获得中科院院长优秀奖、北京市优秀毕业生等,团队在2017中国智能车未来挑战赛中获得两项冠军(离线测试比赛前方车辆检测、前方车辆距离监测)。

陈达贵   清华大学自动化系控制理论研究所硕士生,主要研究方向是深度强化学习的理论和计算图形学,具有丰富的深度学习和深度强化学习实践经验。


640?wx_fmt=png

课程内容

640?wx_fmt=png

第1章 概述

1.1 强化学习问题

1.2 强化学习的组成

1.3 智能体的组成

1.4 强化学习的分类

1.5 强化学习中的关键概念

1.6 编程实践:环境和随机策略

第2章 马尔可夫决策过程

2.1 马尔可夫过程

2.2 马尔可夫奖励过程

2.3 有限马尔可夫决策过程

2.4 马尔可夫决策过程的引申

2.5 编程实践:马尔可夫决策过程

第3章 动态规划

3.1 动态规划简介

3.2 策略评价

3.3 策略提升

3.4 策略迭代

3.5 值迭代

3.6 动态规划引申

3.7 编程实践:在Gridworld上的策略迭代和值迭代

第4章 无模型方法一:蒙特卡洛

4.1 无模型方法简介

4.2 On-policy和Off-policy

4.3 蒙特卡洛方法简介

4.4 蒙特卡洛评价

4.5 蒙特卡洛优化

4.6 增量算法

4.7 编程实践:蒙特卡洛方法

第5章 无模型方法二:时间差分

5.1 时间差分简介

5.2 时间差分评价

5.3 SARSA

5.4 Q学习

5.5 编程实践:TD算法

第6章 无模型方法三:多步自举

6.1 多步自举简介

6.2 TD(lambda)

6.3 SARSA(lambda)

6.4 off-policy下的多步自举

6.5 编程实践:n-step TD

第7章 函数近似与深度网络

7.1 函数近似

7.2 梯度下降算法

7.3 深度学习基础

7.4 编程实践:深度学习框架

第8章 策略梯度算法

8.1 策略梯度简介

8.2 策略梯度定理

8.3 REINFORCE规则

8.4 Actor-Critic算法

8.5 TRPO算法

8.6 编程实践:AC算法

第9章 深度强化学习

9.1 DQN

9.2 A3C

9.3 DDPG

9.4 PPO

9.5 编程实践:Atari游戏

第10章 基于模型的强化学习

10.1 基于模型的强化学习简介

10.2 基于模型的规划

10.3 Dyna算法

10.4 基于仿真的搜索

第11章 前景与大作业

11.1 探索和利用        

11.2 基于模型的强化学习方法

11.3 分层强化学习      

11.4 反强化学习和示范学习

11.5 多智能体强化学习  

11.6 记忆和注意力机制

11.7 元学习

11.8 Project大作业


640?wx_fmt=png

课程目标

640?wx_fmt=png

本课程主要面向初学者,讲述强化学习的基础理论,介绍强化学习的基本应用,给学员建立系统的强化学习理论体系。同时,本课程会带领学员了解其相关的最新技术,解决复杂环境下的强化学习问题。


640?wx_fmt=png

课程特色

640?wx_fmt=png

1、课程学习结束,根据每次作业的分数,评选优秀学员;

2、优秀学员获得深蓝学院颁发的证书; 

3、优秀学员推荐至企业实习或者就业,有机会获得旷视科技(Face++)2000元奖学金。


640?wx_fmt=png

先修课程

640?wx_fmt=png

高等数学、线性代数、概率论、Python等


640?wx_fmt=png

报名方式

640?wx_fmt=png

200位报名的同学可添加助教欣然微信(shenlan-xinran)领取100元的早鸟报名优惠券。

640?wx_fmt=jpeg


点击“阅读原文”,了解旷视(Face++)奖学金

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值