深度增强学习方向论文整理

最新推荐文章于 2022-04-24 23:06:06 发布

凌风探梅

最新推荐文章于 2022-04-24 23:06:06 发布

阅读量916

点赞数

分类专栏： DeepLearning

DeepLearning 专栏收录该内容

181 篇文章 4 订阅

订阅专栏

本文为知乎专栏作者Alex-zhai原创，已授权CSDN转载。
责编：王艺

一. 开山鼻祖DQN

Playing Atari with Deep Reinforcement Learning，V. Mnih et al., NIPS Workshop, 2013.
Human-level control through deep reinforcement learning, V. Mnih et al., Nature, 2015.

二. DQN的各种改进版本（侧重于算法上的改进）

三. DQN的各种改进版本（侧重于模型的改进）

四. 基于策略梯度的深度强化学习

深度策略梯度：

深度行动者评论家算法：

搜索与监督：

连续动作空间下探索改进：

Curiosity-driven Exploration in DRL via Bayesian Neuarl Networks

结合策略梯度和Q学习：

其它策略梯度文章：

五. 分层DRL

六. DRL中的多任务和迁移学习

七. 基于外部记忆模块的DRL模型

八. DRL中探索与利用问题

九. 多Agent的DRL

十. 逆向DRL

十一. 探索+监督学习

十二. 异步DRL

十三：适用于难度较大的游戏场景

十四：单个网络玩多个游戏

十五：德州poker

十六：Doom游戏

十七：大规模动作空间

Deep Reinforcement Learning in Large Discrete Action Spaces

十八：参数化连续动作空间

Deep Reinforcement Learning in Parameterized Action Space

十九：Deep Model

二十：DRL应用

机器人领域：

机器翻译:

Simultaneous Machine Translation using Deep Reinforcement Learning

目标定位：

Active Object Localization with Deep Reinforcement Learning

目标驱动的视觉导航：

Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

自动调控参数：

Using Deep Q-Learning to Control Optimization Hyperparameters

人机对话：

视频预测：

Action-Conditional Video Prediction using Deep Networks in Atari Games

文本到语音：

WaveNet: A Generative Model for Raw Audio

文本生成：

Generating Text with Deep Reinforcement Learning

文本游戏：

Language Understanding for Text-based Games Using Deep Reinforcement Learning

无线电操控和信号监控：

Deep Reinforcement Learning Radio Control and Signal Detection with KeRLym, a Gym RL Agent

DRL来学习做物理实验：

LEARNING TO PERFORM PHYSICS EXPERIMENTS VIA DEEP REINFORCEMENT LEARNING（11.13更新）

DRL加速收敛：

Deep Reinforcement Learning for Accelerating the Convergence Rate（11.14更新）

利用DRL来设计神经网络：

控制信号灯：

Using a Deep Reinforcement Learning Agent for Traffic Signal Control（11.14更新）

二十一：其它方向

避免危险状态：

Combating Deep Reinforcement Learning’s Sisyphean Curse with Intrinsic Fear （11.14更新）

DRL中On-Policy vs. Off-Policy 比较：

On-Policy vs. Off-Policy Updates for Deep Reinforcement Learning（11.14更新）

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。