【笔记2-2】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)

最新推荐文章于 2025-03-30 22:42:13 发布

jessie_weiqing

最新推荐文章于 2025-03-30 22:42:13 发布

阅读量3.6w

点赞数 112

分类专栏：笔记李宏毅深度强化学习笔记文章标签：深度学习李宏毅 reinforcement learning proximal policy optimization policy gradient

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cindy_1102/article/details/87905272

版权

李宏毅深度强化学习- Proximal Policy Optimization

Policy Gradient
- 术语和基本思想
- Policy Gradient
从on-policy到off-policy （反复多次使用经验）
- 术语和基本思想
- PPO 算法

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记（一）Outline
李宏毅深度强化学习笔记（三）Q-Learning
李宏毅深度强化学习笔记（四）Actor-Critic
李宏毅深度强化学习笔记（五）Sparse Reward
李宏毅深度强化学习笔记（六）Imitation Learning
李宏毅深度强化学习课件

Policy Gradient

术语和基本思想

基本组成:

actor (即policy gradient要学习的对象, 是我们可以控制的部分)
环境 environment (给定的，无法控制)
回报函数 reward function (无法控制)

Policy of actor $\pi$ :
如下图所示，Policy 可以理解为一个包含参数 $\theta$ 的神经网络，该网络将观察到的变量作为模型的输入，基于概率输出对应的行动action
example of policy
Episode:
游戏从开始到结束的一个完整的回合

actor的目标:
最大化总收益reward

Trajectory $\tau$ :
行动action和状态state的序列

给定神经网络参数 $\theta$ 的情况下，出现行动状态序列 $\tau$ 的概率:
以下概率的乘积：初始状态出现的概率；给定当前状态，采取某一个行动的概率；以及采取该行动之后，基于该行动以及当前状态返回下一个状态的概率，用公式表示为：
$probability of \tau$
给定一个行动状态序列 $\tau$ , 我们可以得到它对应的收益reward，通过控制actor，我们可以得到不同的收益。由于actor采取的行动以及给定环境下出现某一个状态state是随机的，最终的目标是找到一个具有最大期望收益（即下述公式）的actor。

累积期望收益：采取某一个行动状态序列 $\tau$ 的概率, 以及该行动状态序列对应的收益reward的乘积之和。
expected reward

Policy Gradient

得出目标函数之后，就需要根据目标函数求解目标函数最大值以及最大值对应的policy的参数 $\theta$ 。类比深度学习中的梯度下降求最小值的方法，由于我们这里需要求的是目标函数的最大值࿰

最低0.47元/天解锁文章

评论 17

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。