李宏毅机器学习2016 第二十四讲深度增强学习

最新推荐文章于 2024-05-22 18:04:37 发布

Cloudy0625

最新推荐文章于 2024-05-22 18:04:37 发布

阅读量1.7k

点赞数 2

本文链接：https://blog.csdn.net/sinat_25346307/article/details/79123857

版权

机器学习_Hungyi Lee 2016 同时被 2 个专栏收录

24 篇文章 1 订阅

订阅专栏

机器学习Hung-yi Lee 2016

24 篇文章 10 订阅

订阅专栏

视频链接：李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩

课程资源：Hung-yi Lee

课程相关PPT已经打包命名好了：链接：https://pan.baidu.com/s/1c3Jyh6S 密码：77u5

我的第二十三讲笔记：李宏毅机器学习2016 第二十三讲集成方法

Deep Reinforcement Learning

本章主要介绍了深度增强学习的原理及主要方法。

1.深度增强学习(Deep Reinforcement Learning)

Deep Reinforcement Learning: AI = RL + DL。增强学习（reinforcementlearning, RL）又叫做强化学习，是近年来机器学习和智能控制领域的主要方法之一。也就是说增强学习关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。通过增强学习，一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习，我们把这个映射称为策略。

对比增强学习和监督学习：

1. 增强学习是试错学习(Trail-and-error)，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。

2. 延迟回报，增强学习的指导信息很少，而且往往是在事后（最后一个状态）才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。

应用有很多：

2.Outline

3.Policy-based Approach Learning an Actor

主要有三步：

①训练一个神经网络作为Actor；

②定义衡量函数好坏的标准；

③选择最优函数。

4.Value-based Approach Learning a critic

A critic不会决定行为，给定一个actor，，它评估actor的好坏。A critic是一个它评价的actor的函数，函数是由神经网络表示的。

有三种类别的critics。

①

②

③

5.Actor-Critic

6.总结

这章主要讲解了深度增强学习(Deep Reinforcement Learning)中的Policy-based Approach Learning an Actor、alue-based Approach Learning a critic以及Actor-Critic。

7.写在最后

持续关注了我的朋友们都知道，正如我第一讲所说本人于2017年12月5日开始学习机器学习课程，在12月7日学习完第三讲之后，就开始了紧张的期末考试复习与考试阶段，因此导致自己在一段时间内都没有进行本课程的学习。考完后，在2018年1月15日，又接着开始第四讲的学习，今天是2018年1月21日。前后总共历时十天的时间。所以我的实践表明，你只需要十天的时间就能完整的学习完整个课程，而且我还花了不少时间精力更新自己的学习笔记。

很高兴终于完成了整个课程的学习，2018年的第一个小目标完成了！学习的一路上确实会出现偷懒的心态，但是想着自己最后能够很自豪的说完成整个课程的学习，还是会充满动力的。有时候，带着幻想去做一件事也是很美妙的哦。接下来，我要朝着自己的下一个小目标出发了！

生命不息，奋斗不止。

Cloudy0625

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习2016 第二十四讲深度增强学习

视频链接：李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩课程资源：Hung-yi Lee课程相关PPT已经打包命名好了：链接：https://pan.baidu.com/s/1c3Jyh6S 密码：77u5我的第二十三讲笔记：李宏毅机器学习2016 第二十三讲集成方法Deep Reinforcement Lear
复制链接

扫一扫