Policy Gradient简述

17 篇文章 1 订阅

占个坑!!!

简单解释

Policy Gradient需要Actor 网络来实现,通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy(动作的概率)。对于动作的价值评价更是多种多样,这些就是PG(Policy Gradient)的核心部分。

注:log的有无区别
加log:增加了非线性
无log:无非线性

详情在这里:
这里写图片描述
一共涉及6种价值的评估:
1 轨迹中,全部奖励值的总和,有点以点盖全的感觉。
2 轨迹中,动作之后奖励值的总和,来表征做出动作之后的一个长期回报的期望。
3 在第2个方法中的奖励值总和减去一个基准。
4 直接应用Q值来作为指标,在策略policy下,在某一状态采取某一具体动作的价值表征。就是DQN方法,或者说是A3C中Critic的动作好坏评估阶段方法。
5 A3C中Actor中利用的方法,称之为“优势”,在动作在状态中的价值去除过状态的价值,更加合理一些。
6 利用状态价值加上时间差分算法的应用。

以AlphaGo为例,AlphaGo的policy network输出的是softmax概率,我们只能从中选择一个下法,然后得到一个reward。这种情况下reward和policy network之间是不可微的关系,而使用Policy Gradient则没有这个障碍。也因为Policy Gradient的这个特点,目前的很多传统监督学习的问题因为输出都是softmax的离散形式,都可以改造成Policy Gradient的方法来实现,调节得当效果会在监督学习的基础上进一步提升。

对于输出从概率(离散动作)到向量(连续控制)的转变问题!

通过SPG(随机策略梯度)、DPG(确定策略梯度)具体的请关注下一个博客!

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值