李宏毅深度强化学习(国语)课程(2018) 笔记（一）Policy Gradient （Review）

原创

已于 2022-07-07 08:11:22 修改 · 928 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #神经网络 #机器学习 #cnn

于 2022-06-26 23:21:48 首次发布

李宏毅深度强化学习(国语)课程(2018)

https://www.bilibili.com/video/BV1MW411w79n?spm_id_from=333.337.search-card.all.click&vd_source=a4c529a804be1b8a88658c292d9065f9

PPO是Policy Gradient的变形。由on policy 变为off policy后，加些constraint，就变成了PPO。

强化学习三要素，Actor，Environment，Reward Function。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Interesting AI

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

李宏毅强化学习课程教学笔记--Policy gradient

weixin_42421591的博客

08-11

514

强化学习：policy gradient （PG）算法的原理简讲与弊端

李宏毅深度强化学习入门笔记：强化学习简介

暗o星

12-06

959

通过演示学习（Learning by Demonstration)，也称为模仿学习（Imitation Learning）、或学徒学习（Apprenticeship Learning）将 Network 看成一个函数，用来学习典型的监督学习任务。Agent 的 action 受到接收的序列数据的影响。

参与评论您还未登录，请先登录后发表或查看评论

李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

热门推荐

龙哥盟

11-22

3万+

Datawhale开源核心贡献者：王琦、杨逸远、江季提起李宏毅老师，熟悉强化学习的读者朋友一定不会陌生。很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频。现在，强化学习爱好者有更完善的学习资料了！ Datawhale开源项目组成员总结了李宏毅的强化学习视频，实现了视频教程的完整梳理和复现，再也不用担心强化学习。目前，项目已完全开源，包括课程内容、配套的习题和项目，供大家使用。 1. 李宏毅深度强化学习简介 李宏毅老师现任台湾大学电气工程系副教授，主要研究方向是机器学习，特别是深度学习

李宏毅深度强化学习笔记

weixin_46156798的博客

08-31

1125

文章目录增强学习（RL）的一些基本概念：RL的基本组成：三者相互作用的过程：Policy：轨迹的概率：Expected Reward：Policy gradient:On-policy→\rightarrow→Off-policyImportance Sampling：PPO:注：增强学习（RL）的一些基本概念： RL的基本组成： 1-actor：即操纵/需要学习的对象，如飞机大战里的飞机 2-environment：外部环境，如飞机大战里除了飞机以外的所有东西，他们均为游戏内部设定 3-reward：回

李宏毅深度强化学习PPT（含机器学习课程对RL的简介）

11-01

李宏毅深度强化学习PPT（含机器学习课程对RL的简介）

【笔记2-1】李宏毅深度强化学习笔记（一）Outline

cindy_1102的博客

02-24

1万+

李宏毅强化学习-1 IntroductionReinforcement learning:Examples:Properties of RL:RL ApproachPolicy-based approach -- learn an actorValue-based approach -- learn a criticActor-Critic Reinforcement learning: What...

李宏毅老师2021深度学习课程笔记.pdf

10-08

作为深度学习领域的一位杰出教育者，李宏毅老师在2021年春季的深度学习课程中，将复杂的理论与实践经验融合，为学生和从业者们提供了一套系统的知识框架。通过对其课程笔记的深入解读，我们可以窥见深度学习的广阔...

Reinforcement Learning强化学习--李宏毅机器学习笔记

最新发布

knofrab的博客

04-16

1626

强化学习（Reinforcement Learning）：你不知道输出的“最佳答案”，只能通过与环境互动、收集奖励（Reward）来学习策略。

李宏毅《Deep Learning》学习笔记 - 强化学习

好记性不如烂笔头

07-12

1141

强化学习学习资料：PPT, Video 1. Policy-based Approach 1.1 使用NN作为Actor 1.2 设计损失函数在开始设计RL的损失函数之前，我们先来回归一下监督学习中的损失函数。 RL中常用的损失函数是total reward的期望值，另外，即便同一个actor在玩游戏，产生的序列也是不一样的，原因是由于游戏中的随机性。产生的不同序列的概率，计算方式如上。其中，只有与θ\thetaθ相关的，才受actor影响。 reward的期望值，可以用N次游戏的rewa

【李宏毅深度强化学习笔记】—1、策略梯度方法（Policy Gradient）

qq_43703185的博客

06-30

989

1、介绍了actor、environment、reward function2、在深度强化学习中，policy可以看成是参数为的网络，输入state，输出采取各种action的概率3、一轮游戏叫做episode4、trajectory={s1,a1,s2,a2,……}，在给定policy的参数的情况下，可以计算每一个存在的概率。5、总的expected reward=6、使用policy gradient ascend求 expected reward的最大值。

【笔记2-3】李宏毅深度强化学习笔记（三）Q-Learning

cindy_1102的博客

03-18

1万+

李宏毅深度强化学习- Q-LearningIntroduction of Q-LearningBasic ideasQ-Learning:Tips of Q-LearningQ-Learning for Continuous Actions 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 Introduction of Q-Learn...

李宏毅深度强化学习笔记（一）Policy Gradient

我的博客

07-13

1173

李宏毅深度强化学习笔记（一）参考jessie_weiqing博客：https://blog.csdn.net/cindy_1102/article/details/87905272 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 Policy Gradient 术语和基本思想基本组成: actor (即policy gradie...

李宏毅深度学习——强化学习

wkywcd的博客

09-10

1760

强化学习一、RL是什么二、RL的框架1、第一步：Function with unknown2、第二步：定义损失函数3、第三步：Optimization三、Policy gradient（1）如何控制你的actor（2）如何确定哪个行为是好的版本1（3）如何确定哪个行为是好的版本2（4）如何确定哪个行为是好的版本3（5）exploration四、Actor-Critic1、Gritic（1）如何估计value function（2）将critic用在Actor中2、Tip of Actor-Critic五、R

李宏毅机器学习——强化学习Reinforcement Learning

iwill323的博客

10-31

3335

李宏毅机器学习-- 强化学习

【课程笔记】李宏毅2020强化学习课程1

享受当下

11-21

240

李宏毅2020课程1学习笔记 1、State就是Observation 这个State是环境的State，而不是系统的State

李宏毅深度强化学习(国语)课程(2018) 笔记（八）Imitation Learning

qq_22749225的博客

07-06

328

李宏毅深度强化学习(国语)课程(2018) 笔记（八）Imitation Learning

强化学习 by 李宏毅（个人记录向)

lsupermary的博客

09-11

838

P2Proximal Policy Optimization (PPO) importance sampling： On-policy -&amp;amp;gt; Off-policy Gradient for update: *KL divergence(KL距离) 常用来衡量两个概率分布的距离 E(st,at)∼πθ′E(st,at)∼πθ′E_{(s_t,a_t)\thicksim...

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

qq_22749225的博客

06-27

706

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

李宏毅深度强化学习笔记（一）

weixin_39395368的博客

02-04

357

李宏毅深度强化学习笔记（一） Proximal Policy Optimization(PPO) policy gradient从on policy到off policy，再加一些约束就是PPO review policy gradient: 基础元素：Actor、 Enverimrnt、 Reward（后两个不知自己能控制的，能改变的只有Actor） poliyc π\piπ是一个参数为θ\thetaθ的网络，输入为所观察到的环境的状态，由一个矩阵或者向量表达，输出是所有行为的概率。 an episode

深度强化学习的探索与实践——李宏毅课程PPT解析

深度强化学习作为人工智能领域的一项重要技术，是深度学习与强化学习的交叉学科。它主要解决在不确定环境中，智能体（Agent）如何通过与环境的交互来学习策略，以达到最大化累积奖励的目的。李宏毅，作为该领域的...