强化学习之策略梯度及PPO算法

本文深入探讨了强化学习中的策略梯度算法,强调了演员、环境和奖励函数的角色。策略梯度通过调整演员的内部参数以最大化期望奖励,利用梯度上升方法优化。同时,文章对比了蒙特卡洛和时序差分学习的更新频率和学习效率。此外,文章还简要介绍了PPO(Proximal Policy Optimization)算法,它是策略梯度的一种改进,旨在通过限制策略更新的幅度来提高稳定性。
摘要由CSDN通过智能技术生成

#策略梯度及PPO算法

##策略梯度

强化学习有三个组成部分:演员、环境和奖励函数;环境和奖励函数是在开始之前事先给定的,能做的是调整策略使演员得到最大的奖励,策略决定了演员的行为。

###演员跟环境的互动

在一个试验里,环境是一个函数,该函数一开始会输出一个状态s,演员看到输出状态后会突出行为a,把环境输出的s与演员输出的行为a串起来,称为一个轨迹;每一个轨迹的概率可以求解出来。

轨迹的概率取决于:环境的行为和agent的行为;环境的行为是规定好的,不能人为控制;agent的行为由演员自己控制,随着行为的不同,同样的轨迹,会有不同的出现概率。

###奖励函数

奖励函数根据某一状态采取的某一动作决定该行为能得到多少奖励,我们需要做的是调整演员内部参数使得奖励R的值越大越好;使得期望奖励最大化,本章使用梯度上升,(公式省略)

###蒙特卡洛(MC)强化学习和时序差分(TD)学习

两者之间的区别:

1.两者更新频率不同,蒙特卡洛强化学习方法是每个episode更新一次,需要经历完整的状态序列后再更新,时序差分是每个step更新一次,时序差分更新频率更快;

2.时序差分强化学习能够在知道一个小step后进行学习,比蒙特卡洛强化学习更快速灵活;

#PPO

PPO前身叫信任区域策略优化(未完待续……)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值