强化学习_晴晴_Amanda的博客-CSDN博客

强化学习

关注

有关强化学习的书籍摘要、论文解析。

关注数：文章数：28 文章阅读量：38340 文章收藏量：260

作者: 晴晴_Amanda

这个作者很懒，什么都没留下…

展开

RL策略梯度方法之(十八): Importance Weighted Actor-Learner Architecture (IMPALA)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-07 23:52:45 · 1135 阅读 · 0 评论
RL策略梯度方法之(十七): Stein Variational Policy Gradient (SVPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-07 23:49:38 · 972 阅读 · 0 评论
RL策略梯度方法之(十六):Twin Delayed Deep Deterministic(TD3)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-07 23:15:07 · 1244 阅读 · 0 评论
RL策略梯度方法之(十五):SAC with Automatically Adjusted Temperature

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-07 18:43:10 · 511 阅读 · 0 评论
RL策略梯度方法之(十四):Soft Actor-Critic (SAC)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-07 18:11:42 · 4357 阅读 · 0 评论
RL策略梯度方法之(十三): actor-critic using Kronecker-factored trust region(ACKTR)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-07 00:57:53 · 541 阅读 · 0 评论
RL策略梯度方法之(十二): actor-critic with experience replay(ACER)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-07 00:51:13 · 1355 阅读 · 0 评论
RL策略梯度方法之(十一):proximal policy optimization (PPO)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-06 23:12:24 · 2318 阅读 · 4 评论
RL策略梯度方法之(十): Trust region policy optimization (TRPO)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-06 13:58:19 · 490 阅读 · 0 评论
RL策略梯度方法之(九):Multi-agent DDPG (MADDPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-05 23:21:31 · 3244 阅读 · 1 评论
RL策略梯度方法之(八): Distributed Distributional DDPG (D4PG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-05 23:06:54 · 2415 阅读 · 2 评论
RL策略梯度方法之(七): Deep Deterministic Policy Gradient(DDPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-05 22:24:08 · 1983 阅读 · 0 评论
RL策略梯度方法之(六): Deterministic policy gradient(DPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

原创 2020-10-05 17:09:22 · 962 阅读 · 0 评论
RL策略梯度方法之(五): Advantage Actor-Critic(A2C)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析原理解析

原创 2020-10-05 00:38:41 · 3365 阅读 · 0 评论
RL策略梯度方法之(四): Asynchronous Advantage Actor-Critic（A3C）

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现A3C\color{red}A3CA3C ：[ paper | code ]原理解析在A3C中，critic 学习值函数，同时多个 actor 并行训练，并不时地与全局参数同步。因此，A3C可以很好地用于并行训练。服务器的每个核都是一个线程，也就是一个平行世界

原创 2020-10-04 15:10:32 · 636 阅读 · 0 评论
RL策略梯度方法之(三): Off-Policy Policy Gradient算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现算法流程代码实现原理解析算法实现算法流程代码实现

原创 2020-10-04 14:06:36 · 1546 阅读 · 1 评论
张海峰-从博弈论到多智能体强化学习

文章目录内容摘要群体决策智能研究背景博弈论多智能体强化学习研究展望内容摘要·随着以图像识别为代表的“感知智能”日趋成熟，越来越多的人工智能研究者开始关注以AlphaGo为代表的“决策智能”。在即将来临的物联网时代，群体决策智能将成为一个研究重点。·传统上，博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念，侧重分析理性智能体的博弈结果，即均衡。然而，在很多现实问题中，博弈的状态空间和动作空间都很大，智能体的绝对理性是很难实现的.智能体往往处在不断的策略学习过程中。因此，近年来兴

原创 2020-09-21 14:46:32 · 3663 阅读 · 4 评论
IMPALA 分布式框架学习笔记

以下总结来源于：https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/79292530IMPALA的灵感来自于热门的A3C架构，后者使用多个分布式actor来学习agent的参数。在类似这样的模型中，每个actor都使用策略参数的一个副本，在环境中操作。actor会周期性地暂停探索，将它们已经计算得出的梯度信息分享至中央参数服务器，而后者会对此进行更新。与此不同，IMPALA中的actor不会被用来计算梯度信息。它们只是收集经验，并将这些经.

原创 2020-09-15 22:53:43 · 636 阅读 · 0 评论
晴晴晴讲 DQN 的发展史【入门级】

文章目录Q-learningSarsaSarsa(λ)Deep Q NetworkDouble DQNPrioritized Experience Replay (DQN)Dueling DQNQ-learningSarsaSarsa(λ)Deep Q Network当状态空间比较小的情况下用 q learning 还是可以的，但是在复杂的情况下，例如一个视频游戏，它的状态空间非常大，如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。这个时候我们就想不是直接的用迭代的方式去计

原创 2020-08-29 23:12:02 · 761 阅读 · 0 评论
强化学习汇总 - Mofan教程

文章目录1. 什么是强化学习RL算法2. 强化学习方法汇总model-free 和 model-based基于概率和基于价值回合更新和单步更新在线学习和离线学习3. Q-learningQLearning 决策QLearning 更新Q Learning 整体算法Q Learning 中的 Gamma小例子Q-learning 算法更新与 Q-learning 思维决策代码部分4. Sarsa [state-action-reward-state-action]Sarsa 更新行为准则

原创 2020-08-28 20:35:00 · 1048 阅读 · 0 评论
第三篇直接策略搜索——基于确定性策略搜索的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于确定性策略搜索的强化学习方法一、基于确定性策略搜索的强化学习方法一、...

原创 2020-08-25 23:13:41 · 294 阅读 · 0 评论
第三篇直接策略搜索——基于置信域策略优化的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于置信域策略优化的强化学习方法一、基于置信域策略优化的强化学习方法一、...

原创 2020-08-25 23:08:49 · 791 阅读 · 0 评论
第三篇直接策略搜索——基于策略梯度的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于策略梯度的强化学习方法一、基于策略梯度的强化学习方法一、...

原创 2020-04-17 16:17:55 · 1258 阅读 · 1 评论
第二篇值函数Based——基于值函数逼近的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于值函数逼近的强化学习方法基于值函数逼近的强化学习方法...

原创 2020-04-15 23:54:23 · 788 阅读 · 0 评论
第二篇值函数Based——基于时间差分的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于时间差分的强化学习方法基于时间差分的强化学习方法...

原创 2020-04-03 23:51:18 · 362 阅读 · 0 评论
第二篇值函数Based——基于蒙特卡洛的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于蒙特卡洛的强化学习方法基于蒙特卡洛的强化学习方法...

原创 2020-04-02 18:10:04 · 535 阅读 · 0 评论
第一篇强化学习基础（下）——基于模型的动态规划算法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于模型的动态规划算法基于模型的动态规划算法...

原创 2020-03-29 22:30:41 · 443 阅读 · 0 评论
第一篇强化学习基础（上）——马尔科夫决策过程

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录一、马尔科夫决策过程1. 强化学习的基本原理2. ⻢尔科夫性3. ⻢尔科夫过程4. ⻢尔科夫决策过程二、一、马尔科夫决策过程1. 强化学习的基本原理强化学习过程智能体在完成某项...

原创 2020-03-28 21:40:34 · 717 阅读 · 0 评论

强化学习

作者: 晴晴_Amanda

RL策略梯度方法之(十八): Importance Weighted Actor-Learner Architecture (IMPALA)

RL策略梯度方法之(十七): Stein Variational Policy Gradient (SVPG)

RL策略梯度方法之(十六):Twin Delayed Deep Deterministic(TD3)

RL策略梯度方法之(十五):SAC with Automatically Adjusted Temperature

RL策略梯度方法之(十四):Soft Actor-Critic (SAC)

RL策略梯度方法之(十三): actor-critic using Kronecker-factored trust region(ACKTR)

RL策略梯度方法之(十二): actor-critic with experience replay(ACER)

RL策略梯度方法之(十一):proximal policy optimization (PPO)

RL策略梯度方法之(十): Trust region policy optimization (TRPO)

RL策略梯度方法之(九):Multi-agent DDPG (MADDPG)

RL策略梯度方法之(八): Distributed Distributional DDPG (D4PG)

RL策略梯度方法之(七): Deep Deterministic Policy Gradient(DDPG)

RL策略梯度方法之(六): Deterministic policy gradient(DPG)

RL策略梯度方法之(五): Advantage Actor-Critic(A2C)

RL策略梯度方法之(四): Asynchronous Advantage Actor-Critic（A3C）

RL策略梯度方法之(三): Off-Policy Policy Gradient算法

张海峰-从博弈论到多智能体强化学习

IMPALA 分布式框架 学习笔记

晴晴晴 讲 DQN 的发展史【入门级】

强化学习汇总 - Mofan教程

第三篇 直接策略搜索——基于确定性策略搜索的强化学习方法

第三篇 直接策略搜索——基于置信域策略优化的强化学习方法

第三篇 直接策略搜索——基于策略梯度的强化学习方法

第二篇 值函数Based——基于值函数逼近的强化学习方法

第二篇 值函数Based——基于时间差分的强化学习方法

第二篇 值函数Based——基于蒙特卡洛的强化学习方法

第一篇 强化学习基础（下 ）——基于模型的动态规划算法

第一篇 强化学习基础（上）——马尔科夫决策过程

IMPALA 分布式框架学习笔记

晴晴晴讲 DQN 的发展史【入门级】

第三篇直接策略搜索——基于确定性策略搜索的强化学习方法

第三篇直接策略搜索——基于置信域策略优化的强化学习方法

第三篇直接策略搜索——基于策略梯度的强化学习方法

第二篇值函数Based——基于值函数逼近的强化学习方法

第二篇值函数Based——基于时间差分的强化学习方法

第二篇值函数Based——基于蒙特卡洛的强化学习方法

第一篇强化学习基础（下）——基于模型的动态规划算法

第一篇强化学习基础（上）——马尔科夫决策过程