actor-critic学习

 TD更新:

理解Actor-Critic的关键是什么?(附代码及代码分析) - 知乎

 Q值的期望(均值)就是V

1. 为了避免正数陷阱,我们希望Actor的更新权重有正有负。因此,我们把Q值减去他们的均值V。有:Q(s,a)-V(s)

2. 为了避免需要预估V值和Q值,我们希望把Q和V统一;由于Q(s,a) = gamma * V(s') + r - V(s)。所以我们得到TD-error公式: TD-error = gamma * V(s') + r - V(s)

3. TD-error就是Actor更新策略时候,带权重更新中的权重值;

4. 现在Critic不再需要预估Q,而是预估V。而根据马可洛夫链所学,我们知道TD-error就是Critic网络需要的loss,也就是说,Critic函数需要最小化TD-error。

actor就是 Policy,补充一下policy gradient:

原理: 

强化学习笔记:Policy-based Approach_UQI-LIUWJ的博客-CSDN博客

代码理解: 

pytorch笔记:policy gradient_UQI-LIUWJ的博客-CSDN博客_catbackward

 不明白为什么提升到128维

总结的挺好

强化学习——Actor-critic方法 - 知乎 

强化学习:actor-critic - 知乎 

MADDPG的actor-critic部分讲的很好

多智能体强化学习之MADDPG_葛萧艾的博客-CSDN博客_maddpg

DDPG补充,全连接层的作用 

pytorch笔记:policy gradient_UQI-LIUWJ的博客-CSDN博客_catbackward 

强化学习符号表述

强化学习读书笔记 - 00 - 术语和数学符号 - SNYang - 博客园 

优势函数,码住,以后可以看看

强化学习系列(六)--Actor-Critic实例二 - 腾讯云开发者社区-腾讯云 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值