A3C框架

最新推荐文章于 2024-09-12 19:02:20 发布

爱宇小菜涛

最新推荐文章于 2024-09-12 19:02:20 发布

阅读量869

点赞数 17

分类专栏：强化学习文章标签：算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_66988867/article/details/136404771

版权

强化学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

本文探讨了A3C算法如何通过异步训练降低数据相关性，使用多个worker线程进行环境交互，积累经验更新全局网络。优势函数在A3C中起到归一化Q值、提高学习效率和稳定性的作用。

摘要由CSDN通过智能技术生成

文章目录

一、动机
二、A3C算法

一、动机

基于AC框架的算法很难收敛，因此可以采用DQN的经验回放的方法降低数据间的相关性，基于这种思想A3C算法采用异步的思想降低数据间的差异性，具体做法：在多个线程里与环境进行交互，将每个线程内的交互的经验收集起来，共同保存，指导所有智能体与环境进行交互

二、A3C算法

异步训练框架如下图所示：
在这里插入图片描述
包括全局的网络架构和n个worker线程，n个worker线程中的网络与全局网络相同，每个线程独立的与环境进行交互得到数据，积累一定数据便计算自身worker网络的损失函数的梯度，但并不用于自身网络更新，而是更新全局网络，即n个线程根据自身计算的梯度独立的去更新全局网络，每个一段时间，n个worker的参数会copy为全局网络的参数继续进行交互

优势函数：表达动作a相对于平均而言的优势，公式： $A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s)$ ，优势函数其实就是将Q值归一化到Value baseline上，这样有助于提高学习效率，同时使学习更加稳定；同时经验表明，优势函数也有助于减小方差，而方差过大导致过拟合的重要因素。

在这里插入图片描述

爱宇小菜涛

关注

17
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。