视频链接:李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩
课程资源:Hung-yi Lee
课程相关PPT已经打包命名好了:链接:https://pan.baidu.com/s/1c3Jyh6S 密码:77u5
我的第二十三讲笔记:李宏毅机器学习2016 第二十三讲 集成方法
Deep Reinforcement Learning
本章主要介绍了深度增强学习的原理及主要方法。
1.深度增强学习(Deep Reinforcement Learning)
Deep Reinforcement Learning: AI = RL + DL。增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。也就是说增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。
对比增强学习和监督学习:
1. 增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。
2. 延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。
应用有很多:
2.Outline
3.Policy-based Approach Learning an Actor
主要有三步:
①训练一个神经网络作为Actor;
②定义衡量函数好坏的标准;
③选择最优函数。
4.Value-based Approach Learning a critic
A critic不会决定行为,给定一个actor,,它评估actor的好坏。A critic是一个它评价的actor的函数,函数是由神经网络表示的。
有三种类别的critics。
①
②
③
5.Actor-Critic
6.总结
这章主要讲解了深度增强学习(Deep Reinforcement Learning)中的Policy-based Approach Learning an Actor、alue-based Approach Learning a critic以及Actor-Critic。
7.写在最后
持续关注了我的朋友们都知道,正如我第一讲所说本人于2017年12月5日开始学习机器学习课程,在12月7日学习完第三讲之后,就开始了紧张的期末考试复习与考试阶段,因此导致自己在一段时间内都没有进行本课程的学习。考完后,在2018年1月15日,又接着开始第四讲的学习,今天是2018年1月21日。前后总共历时十天的时间。所以我的实践表明,你只需要十天的时间就能完整的学习完整个课程,而且我还花了不少时间精力更新自己的学习笔记。
很高兴终于完成了整个课程的学习,2018年的第一个小目标完成了!学习的一路上确实会出现偷懒的心态,但是想着自己最后能够很自豪的说完成整个课程的学习,还是会充满动力的。有时候,带着幻想去做一件事也是很美妙的哦。接下来,我要朝着自己的下一个小目标出发了!
生命不息,奋斗不止。