李宏毅机器学习(29)

本文介绍了Policy Gradient的原理,并通过数学推导解释了Off-Policy学习的优势。接着,文章详细阐述了Proximal Policy Optimization(PPO)算法,它是PG的一种改进,通过引入KL散度惩罚项来限制新旧策略之间的差异,从而实现更稳定的训练。PPO通过clip操作限制比例,确保策略更新不会过大。此外,还提及了PPO2,它进一步优化了策略更新的约束方式。
摘要由CSDN通过智能技术生成

Proximal Policy Optimization近端策略优化算法

PPO(Proximal Policy Optimization)是PG(Policy Gradient)的进阶版。
因此,在学习PPO之前,先复习一下PG的内容。

Policy Gradient

往期复习

On-Policy和Off-Policy

在这里插入图片描述
为什么要Off-Policy呢?如果我们可以让 π θ ′ π_{θ'} πθ去收集数据,让 π θ π_{θ} πθ去做训练,那我们就可以把 π θ ′ π_{θ'} πθ收集到的数据使用很多次,极大地提升了效率。
在这里插入图片描述
我们这里做一个数学推导。现有一个函数 f ( x ) f(x) f(x)遵从 p ( x ) p(x) p(x)的分布。、但现在我们为了把它变成off-policy,就不能直接从 p ( x ) p(x) p(x)中去直接采样。因此我们可以找一个分布 q ( x ) q(x) q(x)将其变形一下。
在这里插入图片描述
但这存在一个问题:尽管前后两项期望是一样的,但他们的方差是不一样的,存在一个 p (

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值