RL(七)——Policy Gradient Methods

Policy-based Reinforcement Learning

在之前的学习中,我们都是从 value function 里直接得到policy,比如说 e-greedy policy。
接下来,我们就要将 policy 参数化,parametrise the policy.
在这里插入图片描述
依然是model-free

使用这种 policy-based RL,相比之前的基于价值函数的方法,好处就是不需要一步一步的 maximize the rewards,而只需要调整策略的参数。

再比如说,当剪刀石头布的时候,策略是随机的,Policy-based RL can learn the optimal stochastic policy。

Finite Difference Policy Gradient

在这里插入图片描述
缺点就是这种方法需要大量的计算,而且十分嘈杂。但是这种方法很简单,而且在不可微的时候也能用。

Likelihood ratios
在这里插入图片描述于是转化成了关于log的一个式子。

Score Function
在这里插入图片描述
大概是用来告知朝着什么方向去更新会获得最大的reward

在这里插入图片描述
在这里插入图片描述

Actor-Critic Algorithm

跟上一节学习的DQN好像有些像啊,也是两套,但是是不一样的
在这里插入图片描述
AC这个是将价值函数逼近的方式和这一节的policy parametrised 方式结合起来,Actor是用来实际决定下一个动作,获得reward,拥有策略的,然后Critic是根据Actor获取的信息不断调整,C就像是一个 Function Approximator,然后C中获得的Q来替换Policy Gradient里面的Q,就实现了这两种方式的结合。

Critic只是用来评估现在的参数θ对于现在的策略Πθ有多好,policy evaluation,并且通过这样去调整现在的策略,调整Actor,并不是去找出一个最好的Q*,不是optimize。

下面是算法:
在这里插入图片描述
可以通过添加Baseline的方式来减小Variance。
在这里插入图片描述
A(s,a) 是Advantage Function,上面给出了定义。
下面给出一种常用的计算方法:
在这里插入图片描述
可以看出TD Error 就是A(s,a) 的无偏估计,所以利用TD error就可以比较简单的计算优势函数A了。
下面给出两张ppt,是critic & actor 的算法:
在这里插入图片描述
在这里插入图片描述
用资格迹来policy gradient
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值