机器学习与深度学习系列连载：第三部分强化学习（十五) 深度强化学习- Actor-Critic的集大成者：A3C

最新推荐文章于 2023-11-02 13:45:54 发布

人工智能插班生

最新推荐文章于 2023-11-02 13:45:54 发布

阅读量598

点赞数

分类专栏：强化学习神经网络深度学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dukuku5038/article/details/84811290

版权

深度学习同时被 3 个专栏收录

53 篇文章 9 订阅

订阅专栏

51 篇文章 1 订阅

订阅专栏

18 篇文章 2 订阅

订阅专栏

Actor-Critic的集大成者：A3C

首先，我们重温下策略梯度和Q-learning算法

策略梯度
我们在梯度下降的过程中，对于reward函数的估计是极其不稳定的 $G_t$ =

$G_t$ 是从实际环境中交互进行估计：
Q- learning
(1) 状态价值函数 $V^{\pi}(S)$
概念：当我们使用策略π，经过状态S后，累计奖励reward的和的期望

(1) 状态-行为价值函数 $Q^{\pi}(S，a)$
概念：当我们使用策略π，经过状态S并采取动作a后，累计奖励reward的和的期望

1. Actor-Critic

Actor-Critic 就是结合策略梯度和Q-learning 优势。
我们用Q-learning 来估计 $G_t$ ，而不是从每一次交互中累计估算
在这里插入图片描述

在这里插入图片描述

2. Advantage Actor-Critic （A2C）

实际及计算Advantage函数过程中既有Q-learning 又有V状态价值估计，计算相对困难。
在这里插入图片描述

我们将Q-learning 展开：
在这里插入图片描述
于是我们有：

所以在计算Advantage函数中，我们只估计一个状态价值函数V就可以。
算法如下图：
在这里插入图片描述
梯度公式如下：

在A2C中，我们可以有如下的技巧：

策略函 $\pi(S)$ 和评价函数 $V^{\pi}(S)$ 的前几层（预训练的参数）可以共享
使用结过entorpy作为惩罚函数，大的entropy意味着exploration

3. Asynchronous Advantage Actor-Critic (A3C)

A3C是基于A2C的基础上，基于利用“平行宇宙”的概念，模拟不同的环境，用不同的环境进行A2C，然后集中云化更新参数。其实就是利用云化，分布式计算的思路：

复制全局参数 Copy global parameters
抽取数据 Sampling some data
计算数据 Compute gradients
更新全局参数 Update global models

图片来自: https://medium.com/emergentfuture/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-criticagents-a3c-c88f72a5e9f2#.68x6na7o9
在这里插入图片描述

本专栏图片、公式很多来自David Silver主讲的UCL-Course强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,在这里，感谢这些经典课程，向他们致敬！

人工智能插班生

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。