DQN学习笔记记录

前言

本文是我学习DQN过程中觉得好的一些文章的记录。

Nature DQN

我入门并不容易,Nature DQN是最早接触的强化深度学习算法,在此之前也看了许多别的普通强化学习博客,关于强化学习的各种数学理论基础的。首先是这个
金淑林–博客园
这博客主要是理论基础
在这里插入图片描述
还有莫烦的pytorch学习视频,这个在网上很好找,我就不放了,里面有DQN的代码,pytorch对有python基础的ai学习者很友好,比tensorflow的可读性强一百倍。他代码的链接他也在视频里简单讲了DQN的理论。

整个算法过程的梳理,帮你理清思路
强化学习–从DQN到PPO, 流程详解

讲解算法的
Deep Q Network(DQN)算法详解

讲alpha go的,里面也有DQN的部分,稍微看个二三十分钟就讲到了,讲的比较简单。
链接1链接2

这些对入门来说可能并不够,大家还是要反复多看多想多产生疑问,哪不会查哪,早晚会悟的。

Double DQN

Double DQN——解决DQN中的过估计问题

论文详解
DeepRL系列(8): Double DQN(DDQN)原理与实现

Actor Crictic

这可能是我见过的最好理解的Actor-Critic算法解释了

本篇我们讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法

Actor-Critic算法小结

Policy Gradient

【强化学习】Policy Gradient原理

深度解读:Policy Gradient,PPO及PPG

Policy Based强化学习方法

浅谈Policy Gradient

【强化学习】Policy Gradient算法详解

强化学习(二):Policy Gradient理解

DDPG

DDPG是 (DQN + Actor Crictic)

连续动作空间上求解RL——DDPG

PPO

PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。
在这里插入图片描述
强化学习进阶 第七讲 TRPO

【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法

PPO 为什么是 on policy

Proximal Policy Optimization(PPO)算法原理及实现!

PPG

深度解读:Policy Gradient,PPO及PPG

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值