A3C算法

联想下我们之前是怎么算的,

在这里插入图片描述
然后由此构建奖励函数
在这里插入图片描述

又因为这个过程存在着太多的随机性
故我们引入baseline对其进行微调
在这里插入图片描述
并且使用
在这里插入图片描述
来估计偏置值b
再回想下函数Q
在这里插入图片描述

优势函数
函数表达式
在这里插入图片描述
就是在某状态state下,衡量选择某一动作有多好,Q相当于我们得到的结果,V是我们的期望(平均的估计值,根据大数定律,用平均去估计一组数的值是有数学依据的)
这个东西联想导数里面而的一阶损失函数,二阶损失函数,如果A是正的就说明效果不错,方向是很合理的

解读与分析

AC算法要解决的问题
先把之前的算法涉及打分公式给展示下
在这里插入图片描述
如果按照这个公式来的话就是要多进程并行计算两个神经网络对电脑的计算负担非常地大,
那么为了计算A,我就要计算Q和V两个网络了,我们将公式换个写法
在这里插入图片描述
这样写地好处就是只要训练V一个网络了

AC算法地整体计算流程
1获取数据:
在这里插入图片描述
通过策略函数不断地与环境交互得到这些数据,具体地公式表现为
在这里插入图片描述

2前向传播的计算
在这里插入图片描述
3梯度计算
在这里插入图片描述
4更新参数
在这里插入图片描述

这个可不是训练两个网络,是将该网络同时连接两个全连接层
在这里插入图片描述

用于分别计算其对应的目标函数
在这里插入图片描述

简单来说就是在同一个网络中嫁接两个全连接层借此减少计算负担

同时·我们要让它进行多步计算,而不是只计算一步
故公式为
在这里插入图片描述

在公式中还引入了折扣系数。降低其对后续选择的影响(联想K近邻,越近越准)

整体架构.
在这里插入图片描述

在这里插入图片描述

实际上用多进程去做就行

损失函数整理

策略损失函数
在这里插入图片描述
价值网络的损失
在这里插入图片描述

整体损失函数
在这里插入图片描述


在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丰。。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值