重温强化学习之深度强化学习

最新推荐文章于 2024-08-11 18:21:52 发布

BUPT-WT

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1.1k

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/85316998

版权

强化学习专栏收录该内容

17 篇文章 4 订阅

订阅专栏

1、简介

输入特征和真实特征相距比较远，加一个深度学习提取源的特征

2、基于值函数的深度强化学习

意义：不用函数近似无法解决大规模的问题，用函数近似训练不稳定，首次证明了能够通过原始像素解决游戏问题，并且对所有游戏通用

主要论文：

Playing Atari with Deep Reinforcement Learning (2013)

Human-level control through deep reinforcement learning(2015)

关键技术：

Q-learning + DNN

Experience Replay

Target Network

DQN算法：

DQN主要分为两个部分：一部分是交互，一部分是学习

DQN主要贡献是：1、经验回放(解决数据相关性问题) 2、构建target-Network(减小误差)

之前存在的问题是数据之间存在相关性，例如游戏画面，前一秒的画面和下一秒的画面之间存在的关系，所以为了解决这种情况通过采样的方式把当前状态、动作、奖励和下一个状态存入到经验池当中(对应上面图片Store transition(....) in D)

这里注意一下，因为你存入数据(数据的策略)和下一次从这里面抽样用的策略不是一个策略，所以是异策略，这也是不选用sarsa 算法而是Q-learning算法的原因

从上述算法可以看出更新参数之后，每隔C步之后，重新把Q网络复制新的Q网络

针对DQN的改进1:Double DQN:

主要论文：Deep Reinforcement Learning with Double Q-learning(2016)

地址连接：https://arxiv.org/pdf/1509.06461v3.pdf

之前存在的问题是：Q-learning中存在过估计：

理解例子：

对于状态s下，如果对于所有的a，真实的q(s,a)均为0，但是估计值由于不精确，会导致有些大于0，有些小于0.对估计值取最大，会引入一个正向的偏差

主要针对DQN对y进行变化：

针对DQN的改进2:Dueling DQN

主要优势：对于很多状态并不需要估计每个动作的值，增加了V函数的学习机会，V函数的泛化性能好，当有新动作加入时，并不需要重新学习，减少了Q函数由于状态和动作维度差导致的噪声和突变

主要论文：Dueling Network Architectures for Deep Reinforcement Learning（2016）

地址连接：https://arxiv.org/abs/1511.06581

针对DQN的改进3:Prioritized Experience Replay

主要改进：针对DQN来说，DQN一个重要的改进就是Experience Replay，训练时从经验池均匀采样，所以针对这部分改进：Prioritized Experience Replay就是维护一个带优先级的Experience Replay，具体有如下几方面：

不同的经验的权重不同；用TD误差去衡量权重；需要使用sum-tree以及 binary heap data structure去实现；新的transition的TD误差会被设置为最大；类似DP中的优先清理；Experience Replay使得更新不受限于实际经验的顺序，Prioritized Experience Replay 使得更新不受限于实际经验的频率

主要论文：Prioritized Experience Replay

具体使用时存在一些问题：TD误差对噪声敏感；TD误差小的Transition长时间不更新；过多关注TD误差大的transition丢失样本多样性；使用某种分布采样经验，会引入误差

解决办法：

1、两种变体：

或

2、加入重要性采样来消除误差

Prioritized Experience Replay算法

结构图：

Rainbow:

论文：Rainbow: Combining Improvements in Deep Reinforcement Learning

结合DQN及多种DQN变体：

具体参考论文，论文中实验结果截图如下所示：

3、基于策略的深度强化学习

策略梯度框架

1)、DPG：

主要论文：Deterministic Policy Gradient Algorithms（2014）

将策略梯度定理用到了高维和连续动作

常规的策略梯度方法无法用到高维和连续动作空间

连续动作无法使用概率分布输出的形式

高维动作空间中采样费时

随机策略梯度是通过采样的方式估算策略梯度，需要在状态空间和动作空间内采样

直接采用确定性策略输出：a = pi(s)

实现的过程中出现几个问题：

1）确定性策略情况下如何求策略梯度？

2）如何探索？

DPG证明确定性策略梯度定理的存在，并且和Q函数梯度建立关系：

只需要对状态S进行积分，使用off-policy的方式探索并更新(需要重要性采样)

2）DDPG

主要论文：Continuous Control with Deep Reinforcement Learning （2016）

结合DQN和DPG，使用DQN两种技术：Experience Replay 和 Target Network，利用随机过程产生探索性动作

DDPG算法：

3） A3C

主要论文：Asynchronous Methods for Deep Reinforcement Learning（2016）

Online的算法和DNN结合后不稳定(样本关联性)，通过创建多个agent在多个环境执行异步学习构建batch：来自不同环境的样本无相关性，不依赖于GPU和大型分布式系统，不同线程使用了不同的探索策略，增加探索量

A3C算法：

4）A2C

改异步为同步，能更好的利用GPU，在batch_size较大时效果好

框架结构图：

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BUPT-WT CSDN认证博客专家 CSDN认证企业博客

码龄7年

793: 原创

12万+: 周排名

160万+: 总排名

62万+: 访问

: 等级

1万+: 积分

366: 粉丝

260: 获赞

100: 评论

1140: 收藏

私信

关注

分类专栏

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。