李宏毅机器学习2016 第二十四讲 深度增强学习

视频链接:李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩

课程资源:Hung-yi Lee

课程相关PPT已经打包命名好了:链接:pan.baidu.com/s/1c3Jyh6 密码:77u5


我的第二十三讲笔记:李宏毅机器学习2016 第二十三讲 集成方法


Deep Reinforcement Learning


本章主要介绍了深度增强学习的原理及主要方法。


1.深度增强学习(Deep Reinforcement Learning)

Deep Reinforcement Learning: AI = RL + DL。增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。也就是说增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。


对比增强学习和监督学习:

1. 增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。

2. 延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。


应用有很多:


2.Outline



3.Policy-based Approach Learning an Actor

主要有三步:

①训练一个神经网络作为Actor;


②定义衡量函数好坏的标准;



③选择最优函数。


4.Value-based Approach Learning a critic

A critic不会决定行为,给定一个actor,,它评估actor的好坏。A critic是一个它评价的actor的函数,函数是由神经网络表示的。


有三种类别的critics。




5.Actor-Critic



6.总结

这章主要讲解了深度增强学习(Deep Reinforcement Learning)中的Policy-based Approach Learning an Actor、alue-based Approach Learning a critic以及Actor-Critic


7.写在最后

持续关注了我的朋友们都知道,正如我第一讲所说本人于2017年12月5日开始学习机器学习课程,在12月7日学习完第三讲之后,就开始了紧张的期末考试复习与考试阶段,因此导致自己在一段时间内都没有进行本课程的学习。考完后,在2018年1月15日,又接着开始第四讲的学习,今天是2018年1月21日。前后总共历时十天的时间。所以我的实践表明,你只需要十天的时间就能完整的学习完整个课程,而且我还花了不少时间精力更新自己的学习笔记。

很高兴终于完成了整个课程的学习,2018年的第一个小目标完成了!学习的一路上确实会出现偷懒的心态,但是想着自己最后能够很自豪的说完成整个课程的学习,还是会充满动力的。有时候,带着幻想去做一件事也是很美妙的哦。接下来,我要朝着自己的下一个小目标出发了!

生命不息,奋斗不止。


  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值