【强化学习】之Policy Gradients

最新推荐文章于 2023-12-15 14:30:51 发布

ChaoFeiLi

最新推荐文章于 2023-12-15 14:30:51 发布

阅读量552

点赞数 1

分类专栏： #RL 文章标签： RL

本文链接：https://blog.csdn.net/ChaoFeiLi/article/details/90215494

版权

#RL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考链接：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/5-1-A-PG/

https://zhuanlan.zhihu.com/p/142973528

对比Policy Gradients和Q-learning

Policy Gradients和Q-learning的反向传递不同之处

Policy Gradients 的核心思想

算法

对比Policy Gradients和Q-learning

强化学习中通过奖惩来学习正确行为的机制，包括了Q learning, Deep Q Network, ,通过使用学习奖惩值, 根据自己认为的高价值选行为。但是Policy Gradients不通过分析奖励值, 直接输出行为的方法。他的好处在于：它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning, 它如果在无穷多的动作中计算价值, 从而选择行为，这样子内存就炸了，比如‘围棋’

Policy gradient 要输出不是 action 的 value, 而是具体的那一个 action, 这样 policy gradient 就跳过了 value 这个阶段.

划重点：

而且个人认为 Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续的值, 之前我们说到的 value-based 方法（Q learning, Sarsa）输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.

Policy Gradients和Q-learning的反向传递不同之处

Policy Gradients是没有误差的，但是他也需要进行某一种的反向传递. 这种反向传递的目的是让这次被选中的行为更有可能在下次发生。我们使用reward 奖惩的方法，确定这个行为是不是应当被增加被选的概率。

Policy Gradients 的核心思想

演示：

例1、通过眼睛、耳朵、鼻子等观测的信息等同于是通过神经网络分析, 选出了左边的行为, 我们直接进行反向传递, 使之下次被选的可能性增加, 但是奖惩信息却告诉我们, 这次的行为是不好的（左边显示是鞭子）, 那我们的动作可能性增加的幅度随之被减低.

这样就能靠奖励来左右我们的神经网络反向传递.

例2、假如这次的观测信息让神经网络选择了右边的行为, 右边的行为随之想要进行反向传递, 使右边的行为下次被多选一点, 这时, 奖惩信息也来了, 告诉我们这是好行为（右边显示是糖果）, 那我们就在这次反向传递的时候加大力度, 让它下次被多选的幅度更猛烈! 这就是 Policy Gradients 的核心思想了.

算法

Policy gradient 的第一个算法是一种基于 整条回合数据 的更新, 也叫 REINFORCE 方法. 这种方法是 policy gradient 的最基本方法

参数解释：

π是策略函数，表示某种状态下，选择动作的概率

θ表示神网络的权重

$\pi_{ \theta }$ 表示在θ神经网络中的策略函数

$\Lambda _\theta log\pi _\theta(s_t,a_t)v_t$ （delta(log(Policy(s,a))*V) )表示在状态 s 对所选动作 a 的吃惊度, 如果 Policy(s,a) 概率越小, -log(P)（log(Policy(s,a)) 的反向）反而越大. 如果在 Policy(s,a) 很小的情况下, 拿到了一个大的 R, 也就是大的 V, 那 -delta(log(Policy(s, a))*V) 就更大, 表示更吃惊, (我选了一个不常选的动作, 却发现原来它能得到了一个好的 reward, 那我就得对我这次的参数进行一个大幅修改). 这就是吃惊度的物理意义啦.