RL(七)——Policy Gradient Methods

Mia_compiling

于 2020-04-15 13:52:33 发布

阅读量235

点赞数

分类专栏： RL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41796745/article/details/105522589

版权

RL 专栏收录该内容

2 篇文章

订阅专栏

Policy-based Reinforcement Learning

在之前的学习中，我们都是从 value function 里直接得到policy，比如说 e-greedy policy。
接下来，我们就要将 policy 参数化，parametrise the policy.
在这里插入图片描述
依然是model-free

使用这种 policy-based RL，相比之前的基于价值函数的方法，好处就是不需要一步一步的 maximize the rewards，而只需要调整策略的参数。

再比如说，当剪刀石头布的时候，策略是随机的，Policy-based RL can learn the optimal stochastic policy。

Finite Difference Policy Gradient

在这里插入图片描述
缺点就是这种方法需要大量的计算，而且十分嘈杂。但是这种方法很简单，而且在不可微的时候也能用。

Likelihood ratios
在这里插入图片描述于是转化成了关于log的一个式子。

Score Function
在这里插入图片描述
大概是用来告知朝着什么方向去更新会获得最大的reward

在这里插入图片描述

Actor-Critic Algorithm

跟上一节学习的DQN好像有些像啊，也是两套，但是是不一样的
在这里插入图片描述
AC这个是将价值函数逼近的方式和这一节的policy parametrised 方式结合起来，Actor是用来实际决定下一个动作，获得reward，拥有策略的，然后Critic是根据Actor获取的信息不断调整，C就像是一个 Function Approximator，然后C中获得的Q来替换Policy Gradient里面的Q，就实现了这两种方式的结合。

Critic只是用来评估现在的参数θ对于现在的策略Π_θ有多好，policy evaluation，并且通过这样去调整现在的策略，调整Actor，并不是去找出一个最好的Q^*，不是optimize。

下面是算法：
在这里插入图片描述
可以通过添加Baseline的方式来减小Variance。

A(s,a) 是Advantage Function，上面给出了定义。
下面给出一种常用的计算方法：

可以看出TD Error 就是A(s,a) 的无偏估计，所以利用TD error就可以比较简单的计算优势函数A了。
下面给出两张ppt，是critic & actor 的算法：
在这里插入图片描述

用资格迹来policy gradient

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。