强化学习系列 8 :Asynchronous Advantage Actor-Critic(A3C)

最新推荐文章于 2024-08-21 15:26:19 发布

女王の专属领地

最新推荐文章于 2024-08-21 15:26:19 发布

阅读量3.7k

点赞数

分类专栏：机器学习

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/Julialove102123/article/details/71308336

版权

机器学习专栏收录该内容

71 篇文章 39 订阅

订阅专栏

<8>Asynchronous Advantage Actor-Critic(A3C)

A3C：有效利用计算资源, 并且能提升训练效用的算法。

平行训练：

A3C 其实只是这种平行方式的一种而已, 它采用的是我们之前提到的 Actor-Critic 的形式. 为了训练一对 Actor 和 Critic, 我们将它复制多份红色的, 然后同时放在不同的平行宇宙当中, 让他们各自玩各的. 然后每个红色副本都悄悄告诉黑色的 Actor-Critic 自己在那边的世界玩得怎么样, 有哪些经验值得分享. 然后还能从黑色的 Actor-Critic 这边再次获取综合考量所有副本经验后的通关秘籍. 这样一来一回, 形成了一种有效率的强化学习方式.

女王の专属领地

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

女王の专属领地 您的鼓励是我最大的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。