李宏毅强化学习课程教学笔记--Policy gradient

一、 policy gradient内容解释

智能体在环境中以策略θ(这里的θ指的是模型参数矩阵)运动,产生运动轨迹

该运动轨迹出现的概率为

该轨迹的奖励和图像解释为 

 由于同一个状态得到的动作值是不一定的,同一个动作值转移到的状态也是不一定的,因此同一个θ下奖励值R其实是个random value,那么在给定θ的情况下,我们需要根据奖励R的期望值来判断当前策略θ。根据期望计算公式,计算奖励期望就是列举所有trajectory出现的概率和得到的奖励的积之和(该公式也说明了PG需要多次采样,得到不同的轨迹再计算):

 此时奖励梯度为,在这里R不必是可微的。在最终的公式说明在某个状态选择了某个动作,如果该过程对应轨迹奖励为正的,则该(a|s)的概率就会增加,如果该轨迹奖励为负的,则该(a|s)的概率就会降低

参数更新方法

 

二、这时就会出现几个问题

 1.base line

但是依据对于上一个式子的应用可以看到,奖励R有可能总是正的,这样不准确的状态与动作仍然被增加了选择的几率,之前未被选择到的内容就会减少被选择的机率,因此得设计一个baseline,用于获得负项,b的取值大致为R的期望值:

2. 衰减因子

 另外,依据上一步的式子可以看出来,在固定的轨迹中,每一步所乘的奖励值是固定的,是该轨迹的总奖励。但是在轨迹中所有被选择的行为给整体奖励带来的影响是不同的,每一步都乘以相同的奖励值会造成训练效率不高的问题,因此只记录选择该行为后获得的奖励值之和,作为公式中梯度所乘的权重。

 在选择某个行为之后获得的奖励值和记录了从该行为到未来所有的行为所获得的奖励,但是未来的行为与该行为的关联性比并非很强,因此加入折扣因子γ<1,起到将未来奖励衰弱的作用,从而减少未来奖励对目前所选行为在计算方面的影响。

 将梯度因子所乘的项记录为优势函数Aθ(s,a),在s状态下,行为s比其他行为好在哪里。在某些情况下,例如PG的进化之一——AC算法中,函数A由critic网络得出。

三、 policy gradient弊端

 policy gradient每次需要 采样多挑轨迹数据,但是这些数据只被使用一次就丢弃掉,对于数据稀缺的强化学习来说极为浪费

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值