A2C算法

红烧code

已于 2023-09-04 15:22:26 修改

阅读量280

点赞数

分类专栏：强化学习文章标签：人工智能强化学习

于 2023-09-04 15:21:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51352578/article/details/132670211

版权

强化学习专栏收录该内容

13 篇文章

订阅专栏

A2C算法

要点

A2C算法中引入Advantage的概念，使用Q函数期望值V作为baseline，并以两者差值作为优势。
为了减少未知变量的数量，使用 $r_{t+1}+\gamma V_t(s+1)$ 来近似Q函数
从Actor-Critic角度来看，critic通过观察actor根据 $\pi$ 做出的动作，计算出优势函数 $A_t$ 作为一种"评价"，指导了actor参数的修正
对于多久更新一次参数的问题，各个算法库的更新方式不尽相同，有以下几种
- 每个时间步一更新
- 每n步一更新
- 每个episode一更新
下面伪代码中用的是第一种：

博客等级

码龄5年

59
原创

167
点赞

540
收藏

2089
粉丝

关注

私信

热门文章

分类专栏

深度学习 12篇
操作系统 1篇
Rust 2篇
优化理论 1篇
强化学习 13篇
Python 23篇
C语言 2篇
LaTeX 2篇
计算机网络
powershell 4篇
stm32单片机 3篇
硬件 2篇
自动控制原理 2篇
数据库 1篇
Docker 2篇
前端 3篇
Git 2篇
英语学习 1篇
手机摄影 1篇

最新评论

奈氏判据的推导
Laserlike_Focus: 博主您好，想再请教一个问题，困扰了我好久，奈奎斯特稳定判据中；令P-Z=N; P为F(s)在s平面上nyquist contour闭合曲线中极点的个数 Z为F(s)在s平面上nyquist contour闭合曲线中零点的个数 N为F(s)-plane上绕（0，0）或（-1，0）逆时针旋转的闭合圈数当把映射函数F(s)=G(s)*H(s)+1改为F(s)=G(s)*H(s)后为什么P和Z不变？P不变可以理解，Z不变无法理解
奈氏判据的推导
Laserlike_Focus: 博主您好，想请教一个问题奈奎斯特稳定判据中；令P-Z=N; P为F(s)在s平面上nyquist contour闭合曲线中极点的个数 Z为F(s)在s平面上nyquist contour闭合曲线中零点的个数 N为F(s)-plane上绕（0，0）或（-1，0）逆时针旋转的闭合圈数当把映射函数F(s)=G(s)*H(s)+1改为F(s)=G(s)*H(s)后这里改变F(s)有什么意义呢？无非就是把看绕（0，0）的逆时针旋转的闭合圈数换成了看绕（-1，0）的逆时针旋转的闭合圈数，这样做的目的意义何在呢？为何不直接用F(s)=G(s)*H(s)+1来看绕（0，0）的逆时针旋转的闭合圈数呢？
numpy广播机制
开心生活没一天: 这里广播是不是少了一个规则，如果数组维度不同维度低的要在左边加1
Windows系统下MMDeploy预编译包的使用
AWERTYUSGJK: up，RuntimeError: Failed to parse onnx, In node 538 (importFallbackPluginImporter): UNSUPPORTED_NODE: Assertion failed: creator && "Plugin not found, are the plugin name, version, and namespace correct?"这个问题如何解决呢
Windows下向mmdetection注册新的组件
红烧code: 我当时是直接开启训练，看它输出的启动日志。不过，这篇博文可能已经过时了，mmdet已经步入3.x，我这个还是2.x版本的。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。