【强化学习】之Policy Gradients

参考链接:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/5-1-A-PG/

https://zhuanlan.zhihu.com/p/142973528

目录

对比Policy Gradients和Q-learning

Policy Gradients和Q-learning的反向传递不同之处

Policy Gradients 的核心思想

算法


对比Policy Gradients和Q-learning

强化学习中通过奖惩来学习正确行为的机制,包括了Q learning, Deep Q Network, ,通过使用学习奖惩值, 根据自己认为的高价值选行为。但是Policy Gradients不通过分析奖励值, 直接输出行为的方法。他的好处在于:它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning, 它如果在无穷多的动作中计算价值, 从而选择行为,这样子内存就炸了,比如‘围棋’

Policy gradient  要输出不是 action 的 value, 而是具体的那一个 action, 这样 policy gradient 就跳过了 value 这个阶段.

划重点:

而且个人认为 Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续的值, 之前我们说到的 value-based 方法(Q learning, Sarsa)输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.

Policy Gradients和Q-learning的反向传递不同之处

Policy Gradients是没有误差的,但是他也需要进行某一种的反向传递. 这种反向传递的目的是让这次被选中的行为更有可能在下次发生。我们使用reward 奖惩的方法,确定这个行为是不是应当被增加被选的概率。

Policy Gradients 的核心思想

演示:

例1、通过眼睛、耳朵、鼻子等观测的信息等同于是通过神经网络分析, 选出了左边的行为, 我们直接进行反向传递, 使之下次被选的可能性增加, 但是奖惩信息却告诉我们, 这次的行为是不好的(左边显示是鞭子), 那我们的动作可能性增加的幅度随之被减低.

这样就能靠奖励来左右我们的神经网络反向传递.

例2、假如这次的观测信息让神经网络选择了右边的行为, 右边的行为随之想要进行反向传递, 使右边的行为下次被多选一点, 这时, 奖惩信息也来了, 告诉我们这是好行为(右边显示是糖果), 那我们就在这次反向传递的时候加大力度, 让它下次被多选的幅度更猛烈! 这就是 Policy Gradients 的核心思想了.

算法

Policy gradient 的第一个算法是一种基于 整条回合数据 的更新, 也叫 REINFORCE 方法. 这种方法是 policy gradient 的最基本方法

参数解释:

π是策略函数,表示某种状态下,选择动作的概率

θ表示神网络的权重

$\pi_{ \theta }$表示在θ神经网络中的策略函数

\Lambda _\theta log\pi _\theta(s_t,a_t)v_t(delta(log(Policy(s,a))*V)  )表示在 状态 s 对所选动作 a 的吃惊度, 如果 Policy(s,a) 概率越小,   -log(P)(log(Policy(s,a)) 的反向)反而越大. 如果在 Policy(s,a) 很小的情况下, 拿到了一个 大的 R, 也就是 大的 V, 那 -delta(log(Policy(s, a))*V) 就更大, 表示更吃惊, (我选了一个不常选的动作, 却发现原来它能得到了一个好的 reward, 那我就得对我这次的参数进行一个大幅修改). 这就是吃惊度的物理意义啦.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值