A2C和A3C

最新推荐文章于 2023-05-06 16:57:42 发布

HCH996

最新推荐文章于 2023-05-06 16:57:42 发布

阅读量1.6k

点赞数 1

分类专栏：科研

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37841366/article/details/112443693

版权

科研专栏收录该内容

9 篇文章 0 订阅

订阅专栏

A2C Advantage Actor-Critic

$G_t^n=\sum_{t^\prime=t}^{T_n}\gamma^{t^\prime-t}r^n_{t^\prime} -b$ 是一个随机变量，在采样数据不非常充足的情况下，方差会很大，如何提高训练的稳定性呢？直接估算G的期望值，让期望值去代替采样到的值。

在Q-learning中有两种Critic

用MC会更精确但TD会更稳定。

上图在实做时需要训练两个网络Q和V, 更大可能性的引入估算的偏差， 如何转换为只估算一个网络呢？

只需要估算一个V就可以，但坏处是会引入一定的随机性，因为引入了 $r_t^n$ .

先用TD或者MC去估算 $V^\pi(s)$ , 再用 $V^\pi(s)$ 去更新得到新的 $\pi^\prime$ , 再用新的 $\pi$ 和环境做互动得到新的资料再去更新 $V^\pi(s)$ 。

A3C Asynchronous Advantage Actor-Critic(A3C)

目的：增加训练的速度

每个Worker对应一个CPU，首先从全局网络拷贝参数至worker,然后每个worker单独采样数据，计算梯度 $\theta^1$ ，然后传回给中央的控制中心，中央控制中心会拿 $\theta^1$ 去更新原来的参数值。每个worker在自己的环境中各自做各自的，彼此互不干扰。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
A2C和A3C

A2CAdvantage Actor-Critic是一个随机变量，在采样数据不非常充足的情况下，方差会很大，如何提高训练的稳定性呢？直接估算G的期望值，让期望值去代替采样到的值。在Q-learning中有两种Critic用MC会更精确但TD会更稳定。上图在实做时需要训练两个网络Q和V, 更大可能性的引入估算的偏差，如何转换为只估算一个网络呢？只需要估算一个V就可以，但坏处是会引入一定的随机性，因为引入了.先用TD或者MC去估算, 再用去更新得到新...
复制链接

扫一扫

专栏目录

HCH996 CSDN认证博客专家 CSDN认证企业博客

码龄7年

436: 原创

18万+: 周排名

176万+: 总排名

21万+: 访问

: 等级

4819: 积分

205: 粉丝

132: 获赞

92: 评论

485: 收藏

私信

关注

分类专栏

项目 61篇
Android开发 3篇
计算机网络 11篇
Java 60篇
算法 99篇
Netty 1篇
科研 9篇
Linux 26篇
面经 3篇
数据库 22篇
SSM 8篇
spring 7篇
SpringBoot 49篇
redis 28篇
分布式事务 3篇
并发编程篇 11篇
设计模式 21篇
分布式 3篇
JVM 3篇
JVM虚拟机 2篇
软件测试 9篇
国家电网
ElasticSearch 3篇
Quartz 1篇
Kafka
高并发分布式 2篇
人工智能 4篇
算法高频面试题精讲 4篇
leetcode刷题 11篇

最新评论

什么是指令重排序？为什么要重排序？
生来如风: 关于最后一段话，没有特别理解，想请教一下这一句【线程 2 却可能看到线程 1 修改 a 之后的代码执行效果】
HTTP协议的工作原理-HTTP1.0-HTTP1.1-HTTP2.0之间的区别-HTTP响应状态码
2301_79305604: 为什么不攻击小三的臀部
软件的安装：编译安装和包管理器安装有什么优势和劣势
Issac-Clarke: 这几天也一直纠结yum源安装和编译安装的选择问题，写的很详细，
PPO算法
m0_73822959: 您好，对于连续动作actor网络一定输出高斯分布吗，还有您的问题怎么解决的呢
什么是指令重排序？为什么要重排序？
茶汰: class文件也不会把load a、load b这些指令显示出来，所以是看不出来的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。