扫码下载「CSDN程序员学院APP」,1000+技术好课免费看
APP订阅课程,领取优惠,最少立减5元 ↓↓↓
订阅后:请点击此处观看视频课程
视频教程-强化学习深入浅出完全教程-强化学习
学习有效期:永久观看
学习时长:1260分钟
学习计划:21天
难度:高
「口碑讲师带队学习,让你的问题不过夜」
讲师姓名:郭宪
技术总监/研发总监
讲师介绍:南开大学计算机与控制工程学院博士后。2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于2016 年1 月获得工学博士学位,期间在国内外知名杂志和会议发表论文数10 篇。2016年以来,郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。
☛点击立即跟老师学习☚
「你将学到什么?」
深入浅出地介绍强化学习的概念,算法发展历史,分类,及发展趋势。 强化学习深入浅出完全教程,内容包括强化学习概述、马尔科夫决策过程、基于模型的动态规划方法、蒙特卡罗方法、时间差分方法、Gym环境构建及强化学习算法实现、值函数逼近方法、DQN方法及其变种、策略梯度方法。
「课程学习目录」
第1章:强化学习概述 |
1.强化学习概述 |
2.Python基础 |
3.Numpy基础 |
4.Gym环境介绍 |
5.第一节作业 |
第2章:马尔科夫决策过程 |
1.马尔科夫决策过程(上) |
2.马尔科夫决策过程(中) |
3.马尔科夫决策过程(下) |
第3章:基于模型的动态规划方法 |
1.马尔科夫决策过程示例编程 |
2.基于动态规划的强化学习方法讲解 |
第4章:蒙特卡罗方法 |
1.基于动态规划的强化学习编程示例讲解 |
2.理解基于蒙特卡洛的强化学习算法 |
3.理解On-policy 和 off-policy |
第5章:时间差分方法 |
1.时间差分方法 |
第6章:Gym环境构建及强化学习算法实现 |
1.Gym 环境构建及强化学习算法实现 |
第7章:值函数逼近方法 |
1.函数逼近方法理论介绍 |
2.TensorFlow简介 |
3.基于gym和TF的强化学习编程演示 |
第8章:DQN方法及其变种 |
1.神经网络介绍 |
2.DQN算法及变种 |
3.DQN编程实例讲解 |
第9章:策略梯度方法 |
1.策略梯度理论知识讲解 |
2.其他算法概述 |
「7项超值权益,保障学习质量」
- 大咖讲解
技术专家系统讲解传授编程思路与实战。
- 答疑服务
专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。
- 课程资料+课件
超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)
- 常用开发实战
企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。
- 大牛技术大会视频
2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。
- APP+PC随时随地学习
满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。
「什么样的技术人适合学习?」
- 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
- 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
- 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。
「悉心打造精品好课,21天学到大牛3年项目经验」
【完善的技术体系】
技术成长循序渐进,帮助用户轻松掌握
掌握强化学习知识,扎实编码能力
【清晰的课程脉络】
浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。
【仿佛在大厂实习般的课程设计】
课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。
「你可以收获什么?」
掌握强化学习知识,并运用到具体工作中。