RL论文

最新推荐文章于 2022-03-25 11:00:11 发布

dlphay

最新推荐文章于 2022-03-25 11:00:11 发布

阅读量638

点赞数

分类专栏： RL algorithm paper 文章标签： RL DQN 论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dlphay/article/details/78185870

版权

algorithm 同时被 3 个专栏收录

29 篇文章 2 订阅

订阅专栏

17 篇文章 1 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

https://zhuanlan.zhihu.com/p/21378532?refer=intelligentunit

通用解决框架DQN：

DQN：Playing Atari with Deep Reinforcement Learning

Nature DQN：Human-levelcontrol through deep reinforcement learning

Nature DQN：Human-level Control Through Deep Reinforcement Learning

简介文：

RL：reinforcement learning：an introduction

POMDP方向：Partially Observable Markov Decision Processes

数据集上的改进：

优先经验回放方法：PrioritizedExperience Replay

训练上的改进：

异步训练（A3C）：AsynchronousMethods for Deep Reinforcement Learning

网络结构上的改进：

增加RNN：DeepRecurrent Q-Learning for Partially Observable MDP

增加TL：Actor-Mimic:Deep Multitask and Transfer Reinforcement Learning

评估单独动作价值：DuelingNetwork Architectures for Deep Reinforcement Learning

增加LSTM的DRQN：Deep Recurrent Q-Learning for Partially Observable MDPs

基于最优解计算结构的改进：

Target Q的改进：DeepReinforcement Learning with Double Q-learning

置信域策略优化（TRPO）：Trust Region Policy Optimization

基于Actor的PG方向：

基础：Policy Gradient Methods for Reinforcement Learning with FunctionApproximation

对数似然项解读：Why we consider log likelihood instead of Likelihood in GaussianDistribution

DPG算法：Deterministic Policy Gradient Algorithms

DDPG算法：CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

扩展应用领域的改进：

解决高难度游戏：UnifyingCount-Based Exploration and Intrinsic Motivation

连续控制上面：ContinuousDeep Q-Learning with Model-based Acceleration

平台：

SC2：StarCraft II: A New Challenge for Reinforcement Learning

elf：ELF: An Extensive, Lightweight and Flexible Research Platformfor Real-time Strategy Games

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RL论文

https://zhuanlan.zhihu.com/p/21378532?refer=intelligentunit
复制链接

扫一扫

专栏目录

dlphay CSDN认证博客专家 CSDN认证企业博客

码龄7年

84: 原创

23万+: 周排名

115万+: 总排名

50万+: 访问

: 等级

4141: 积分

303: 粉丝

216: 获赞

132: 评论

706: 收藏

私信

关注

热门文章

分类专栏

最新评论

一种动态背景下的运动小目标检测方法
qq_58801828: 博主，最近正在学习运动目标检测，能分享一下代码吗，非常感谢，3088016749@qq.com
一种动态背景下的运动小目标检测方法
马小跳ccdd: 您好，能分享一下代码学习一下吗，非常感谢！2365035531@qq.com
一种动态背景下的运动小目标检测方法
可爱小猴: 您好，源码能发一份给我吗，最近在学习这个，万分感谢 2691190536@qq.com
前缀树trie预测与热度扩散预测模型
qiufengzouma: 大佬，有具体代码和数据集吗，想学习下，万分感谢
一种动态背景下的运动小目标检测方法
UPUP__: 您好，能分享一下代码学习一下吗，非常感谢！2895326674@qq.com

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。