强化学习

课程简介

强化学习,被誉为可能通向强人工智能的第三类机器学习方法,在AI游戏领域的应用已司空见惯,如自动玩flappy bird,借助强化学习玩星际争霸,最近非常火的王者荣耀也不例外;在无人驾驶、自动交易等领域也有着举足轻重的作用。

《强化学习》课程,带你揭秘AlphaGo和星际争霸/王者荣耀,华尔街最热门的自动交易算法背后的技术及无人驾驶的关键点。

 

 

课程特色

 

1)从模型无关到模型相关,从Q-learning到Policy gradient,全面涵盖主流强化学习内容知识

2)与工业级ML算法紧密结合的应用案例讲解

3)配套实验环境与GPU服务器

 

第1课 强化学习RL简介

  • 知识点1:强化学习定义:可能通向强人工智能的第三类机器学习方法
  • 知识点2:强化学习数学模型:马尔科夫决策过程(MDP)
  • 知识点3:RL机器人:探索环境,规划自己的人生
  • 知识点4:强化学习基本算法分类
  • 知识点5:Model-Based RL: 已知环境,如何优化自己的人生

第2课 Model—Free Learning

  • 知识点1:环境未知,如何评估测略(状态价值)
  • 知识点2:蒙特卡洛方法学习状态价值函数
  • 知识点3:TD方法学习状态价值函数
  • 实战项目:两种方法比较及代码实现
  • 知识点5:OpenAI Gym介绍

第3课 Model-Free Control

  • 知识点1:ϵ− 贪婪策略:平衡 Exploration and Exploitation
  • 知识点2:on/off-policy 蒙特卡洛方法
  • 知识点3:on/off-policy TD 算法 (Sara)
  • 实战项目:on/off-policy 算法比较及代码实现

第4课 Q-Learning

  • 知识点1:Q-Learning
  • 知识点2:Deep Q-Learning
  • 实战项目:Q-learning解决山地车问题

第5课 策略梯度学习

  • 知识点1:蒙特卡洛策略梯度
  • 知识点2:Actor-Critic算法
  • 实战项目:用policy gradient解决连续山地车的问题

第6课 TensorFlow强化学习应用案例

  • 实战项目:使用Deep Q network 和 Policy gradient完成以下游戏:强化学习乒乓球游戏、强化学习flappy bird
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值