前言
本文是我学习DQN过程中觉得好的一些文章的记录。
Nature DQN
我入门并不容易,Nature DQN是最早接触的强化深度学习算法,在此之前也看了许多别的普通强化学习博客,关于强化学习的各种数学理论基础的。首先是这个
金淑林–博客园
这博客主要是理论基础
还有莫烦的pytorch学习视频,这个在网上很好找,我就不放了,里面有DQN的代码,pytorch对有python基础的ai学习者很友好,比tensorflow的可读性强一百倍。他代码的链接他也在视频里简单讲了DQN的理论。
整个算法过程的梳理,帮你理清思路
强化学习–从DQN到PPO, 流程详解
讲解算法的
Deep Q Network(DQN)算法详解
讲alpha go的,里面也有DQN的部分,稍微看个二三十分钟就讲到了,讲的比较简单。
链接1,链接2
这些对入门来说可能并不够,大家还是要反复多看多想多产生疑问,哪不会查哪,早晚会悟的。
Double DQN
论文详解
DeepRL系列(8): Double DQN(DDQN)原理与实现
Actor Crictic
这可能是我见过的最好理解的Actor-Critic算法解释了
本篇我们讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法
Policy Gradient
DDPG
DDPG是 (DQN + Actor Crictic)
PPO
PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。
强化学习进阶 第七讲 TRPO
【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法
Proximal Policy Optimization(PPO)算法原理及实现!