强化学习打卡之策略梯度与PPO

强化学习打卡之策略梯度与PPO

在这里插入图片描述Policy Gradient是基于策略的,不同于前面的算法输出是Q值,Policy Gradient的输出是动作概率值,使用 gradient ascent来实现 maximize expected reward,也就是调整 actor 内部的参数 θ, 使得 R 的值越大越好
在这里插入图片描述实现的时候要注意两个tips
Tip 1: Add a Baseline
在这里插入图片描述原式子中的梯度值总是大于零的,同一状态下有的action没有被sample到,而被sample到的action概率增加,意味着没被sample到的action概率就要减小(因为所有action概率和为1?),这时候没被sample到的action就很委屈,不是它不够好,只是没被sample到。加上一个baseline b来避免这个问题。
Tip 2: Assign Suitable Credit
在这里插入图片描述由以上式子可以看出梯度值大小是由(R-b

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值