强化学习目录

UQI-LIUWJ

已于 2022-07-11 12:34:37 修改

阅读量411

点赞数 1

分类专栏：各专栏目录文章标签：机器学习深度学习神经网络

于 2021-07-30 15:10:06 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/119247573

版权

各专栏目录专栏收录该内容

32 篇文章 3 订阅

订阅专栏

强化学习笔记1：强化学习概述_刘文巾的博客-CSDN博客
强化学习笔记2：序列决策(Sequential Decision Making)过程_刘文巾的博客-CSDN博客
强化学习笔记3：RL agent的主要组成部分_刘文巾的博客-CSDN博客
强化学习笔记4：强化学习分类_刘文巾的博客-CSDN博客
强化学习笔记5：learning&planning， exploration&exploitation_刘文巾的博客-CSDN博客
强化学习笔记：Policy-based Approach_UQI-LIUWJ的博客-CSDN博客	策略学习
强化学习笔记：policy learning_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：带基线的策略梯度_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：置信域策略优化 TRPO_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：不完全观测问题_UQI-LIUWJ的博客-CSDN博客
并行梯度下降+A2C （A3C）_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：连续控制 & 确定策略梯度DPG_UQI-LIUWJ的博客-CSDN博客	连续策略
强化学习笔记：随机高斯策略_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：双延时确定策略梯度 (TD3)_UQI-LIUWJ的博客-CSDN博客
强化学习笔记 Ornstein-Uhlenbeck 噪声和DDPG_UQI-LIUWJ的博客-CSDN博客
模仿学习笔记：行为克隆_UQI-LIUWJ的博客-CSDN博客	模仿学习
模仿学习：逆向强化学习(Inverse Reinforcement Learning， IRL)_UQI-LIUWJ的博客-CSDN博客
模仿学习笔记：生成判别模仿学习 Generative Adversarial Imitation Learning, GAIL_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：马尔可夫过程 &马尔可夫奖励过程_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：马尔可夫决策过程 Markov Decision Process(MDP)_UQI-LIUWJ的博客-CSDN博客	MDP
强化学习笔记： backup diagram_UQI-LIUWJ的博客-CSDN博客
强化学习笔记： MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客
MDP 笔记：Value Iteration_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：Q-learning_UQI-LIUWJ的博客-CSDN博客	Q-learning
强化学习笔记：Q-learning ：temporal difference 方法_UQI-LIUWJ的博客-CSDN博客
强化学习笔记： generalized policy iteration with MC_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：Sarsa算法_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：Q_learning （Q-table）示例举例_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：PPO 【近端策略优化（Proximal Policy Optimization）】_UQI-LIUWJ的博客-CSDN博客
DQN笔记：MC & TD_UQI-LIUWJ的博客-CSDN博客	DQN
DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客
DQN 笔记 double DQN_UQI-LIUWJ的博客-CSDN博客
针对连续动作的DQN_UQI-LIUWJ的博客-CSDN博客
强化学习笔记 experience replay 经验回放_UQI-LIUWJ的博客-CSDN博客
DQN笔记：高估问题 & target network & Double DQN_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：对决网略（dueling network）_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：noisy DQN_UQI-LIUWJ的博客-CSDN博客
异步并行强化学习 + Double DQN_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：Actor-critic_UQI-LIUWJ的博客-CSDN博客	actor-critic
强化学习笔记 DDPG (Deep Deterministic Policy Gradient)_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：分层强化学习_UQI-LIUWJ的博客-CSDN博客
多智能体强化学习：多智能体系统_UQI-LIUWJ的博客-CSDN博客	multi-agent
多智能体强化学习：合作关系设定下的多智能体强化学习_UQI-LIUWJ的博客-CSDN博客
非合作关系设定下的多智能体强化学习_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：连续控制与 MADDPG_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：self-attention + multi-agent RL（中心化训练）_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：AlphaGo(AlphaZero) ，蒙特卡洛树搜索（MCTS）_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：应用举例_UQI-LIUWJ的博客-CSDN博客
强化学习笔记：强化学习的约束_UQI-LIUWJ的博客-CSDN博客

注：强化学习分类中的很多文章均参考了李宏毅老师的课程 & 王树森老师的《深度强化学习》

UQI-LIUWJ

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习目录

强化学习笔记1：强化学习概述_刘文巾的博客-CSDN博客强化学习笔记2：序列决策(Sequential Decision Making)过程_刘文巾的博客-CSDN博客强化学习笔记3：RL agent的主要组成部分_刘文巾的博客-CSDN博客强化学习笔记4：强化学习分类_刘文巾的博客-CSDN博客强化学习笔记5：learning&planning， exploration&exploitation_刘文巾的博客-CSDN博客 ...............
复制链接

扫一扫