#策略梯度及PPO算法
##策略梯度
强化学习有三个组成部分:演员、环境和奖励函数;环境和奖励函数是在开始之前事先给定的,能做的是调整策略使演员得到最大的奖励,策略决定了演员的行为。
###演员跟环境的互动
在一个试验里,环境是一个函数,该函数一开始会输出一个状态s,演员看到输出状态后会突出行为a,把环境输出的s与演员输出的行为a串起来,称为一个轨迹;每一个轨迹的概率可以求解出来。
轨迹的概率取决于:环境的行为和agent的行为;环境的行为是规定好的,不能人为控制;agent的行为由演员自己控制,随着行为的不同,同样的轨迹,会有不同的出现概率。
###奖励函数
奖励函数根据某一状态采取的某一动作决定该行为能得到多少奖励,我们需要做的是调整演员内部参数使得奖励R的值越大越好;使得期望奖励最大化,本章使用梯度上升,(公式省略)
###蒙特卡洛(MC)强化学习和时序差分(TD)学习
两者之间的区别:
1.两者更新频率不同,蒙特卡洛强化学习方法是每个episode更新一次,需要经历完整的状态序列后再更新,时序差分是每个step更新一次,时序差分更新频率更快;
2.时序差分强化学习能够在知道一个小step后进行学习,比蒙特卡洛强化学习更快速灵活;
#PPO
PPO前身叫信任区域策略优化(未完待续……)