A3C算法

丰。。

已于 2022-01-22 12:17:50 修改

阅读量1.8k

点赞数 1

分类专栏：机器学习笔记深度强化学习文章标签：神经网络深度学习 python pytorch tensorflow

于 2021-05-29 20:08:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDNXXCQ/article/details/117378244

版权

机器学习笔记同时被 2 个专栏收录

84 篇文章 4 订阅

订阅专栏

深度强化学习

12 篇文章 1 订阅

订阅专栏

联想下我们之前是怎么算的，

在这里插入图片描述
然后由此构建奖励函数

又因为这个过程存在着太多的随机性
故我们引入baseline对其进行微调
在这里插入图片描述
并且使用

来估计偏置值b
再回想下函数Q

优势函数
函数表达式
在这里插入图片描述
就是在某状态state下，衡量选择某一动作有多好，Q相当于我们得到的结果，V是我们的期望(平均的估计值，根据大数定律，用平均去估计一组数的值是有数学依据的)
这个东西联想导数里面而的一阶损失函数，二阶损失函数，如果A是正的就说明效果不错，方向是很合理的

解读与分析

AC算法要解决的问题
先把之前的算法涉及打分公式给展示下
在这里插入图片描述
如果按照这个公式来的话就是要多进程并行计算两个神经网络对电脑的计算负担非常地大，
那么为了计算A，我就要计算Q和V两个网络了，我们将公式换个写法

这样写地好处就是只要训练V一个网络了

AC算法地整体计算流程
1获取数据:
在这里插入图片描述
通过策略函数不断地与环境交互得到这些数据，具体地公式表现为

2前向传播的计算
在这里插入图片描述
3梯度计算

4更新参数

这个可不是训练两个网络，是将该网络同时连接两个全连接层
在这里插入图片描述

用于分别计算其对应的目标函数
在这里插入图片描述

简单来说就是在同一个网络中嫁接两个全连接层借此减少计算负担

同时·我们要让它进行多步计算，而不是只计算一步
故公式为
在这里插入图片描述

在公式中还引入了折扣系数。降低其对后续选择的影响(联想K近邻，越近越准)

整体架构.
在这里插入图片描述

在这里插入图片描述

实际上用多进程去做就行

损失函数整理

策略损失函数
在这里插入图片描述
价值网络的损失

整体损失函数
在这里插入图片描述

熵
在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
A3C算法

优势函数的解读与分析整体计算流程简单来说就是在同一个网络中嫁接两个全连接层借此减少计算负担整体架构.实际上用多线程去做就行损失函数整理
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

丰。。 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。