DQN学习笔记记录

最新推荐文章于 2023-11-14 15:32:11 发布

c19961227

最新推荐文章于 2023-11-14 15:32:11 发布

阅读量183

点赞数

原文链接：https://www.cnblogs.com/jinxulin/

版权

前言

本文是我学习DQN过程中觉得好的一些文章的记录。

Nature DQN

我入门并不容易，Nature DQN是最早接触的强化深度学习算法，在此之前也看了许多别的普通强化学习博客，关于强化学习的各种数学理论基础的。首先是这个
金淑林–博客园
这博客主要是理论基础
在这里插入图片描述
还有莫烦的pytorch学习视频，这个在网上很好找，我就不放了，里面有DQN的代码，pytorch对有python基础的ai学习者很友好，比tensorflow的可读性强一百倍。他代码的链接他也在视频里简单讲了DQN的理论。

整个算法过程的梳理，帮你理清思路
强化学习–从DQN到PPO，流程详解

讲解算法的
Deep Q Network(DQN)算法详解

讲alpha go的，里面也有DQN的部分，稍微看个二三十分钟就讲到了，讲的比较简单。
链接1，链接2

这些对入门来说可能并不够，大家还是要反复多看多想多产生疑问，哪不会查哪，早晚会悟的。

Double DQN

Double DQN——解决DQN中的过估计问题

论文详解
DeepRL系列(8): Double DQN(DDQN)原理与实现

Actor Crictic

这可能是我见过的最好理解的Actor-Critic算法解释了

本篇我们讨论策略(Policy Based)和价值(Value Based)相结合的方法：Actor-Critic算法

Actor-Critic算法小结

Policy Gradient

【强化学习】Policy Gradient原理

深度解读：Policy Gradient，PPO及PPG

Policy Based强化学习方法

浅谈Policy Gradient

【强化学习】Policy Gradient算法详解

强化学习（二）：Policy Gradient理解

DDPG

DDPG是（DQN + Actor Crictic）

连续动作空间上求解RL——DDPG

PPO

PPO算法是一种新型的Policy Gradient算法，Policy Gradient算法对步长十分敏感，但是又难以选择合适的步长，在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新，解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。
在这里插入图片描述
强化学习进阶第七讲 TRPO

【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法

PPO 为什么是 on policy

Proximal Policy Optimization(PPO)算法原理及实现！

PPG

深度解读：Policy Gradient，PPO及PPG

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DQN学习笔记记录

这里写自定义目录标题前言Nature DQN功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入前言本文是我学习DQN过程中觉得好的一些文章的记录。Nature DQN我入门并不容易，Nature DQN是最早接触的强化深度学习
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。