木川子页-CSDN博客

原创第8章 DQN改进算法

DQN算法敲开了深度强化学习的大门，但是作为先驱性的工作，其本身存在着一些问题以及一些可以改进的地方。于是，在DQN之后，学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法：Double DQN 和Dueling DQN，这两个算法的实现非常简单，只需要在DQN的基础上稍加修改，他们能在一定程度上改善DQN的效果。如果读者想要了解更多、更详细的DQN改进方法，可以阅读Rainbow模型的论文机器引用文献。

2024-09-06 10:47:37 1277 1

原创第7章 DQN算法

Q-learning算法，是以矩阵的方式建立一张存储每个状态下所有动作Q值的表格。表格中的每一个动作Q(s,a)表示在状态s下选择动作a然后继续遵循某一策略预期能够得到的期望回报。但是，这种用表格存储动作价值的做法只在环境的状态和动作都是离散，且空间比较小的情况下适用，我们之前进行代码施展的几个环境都是如此（如悬崖漫步）。当状态或者动作数量非常巨大的时候，这种做法就不适用。例如，当状态是一张RGB图像时，假设图像大小为，此时一共有种状态，在计算机中存储这个数量级的Q值表格是不现实的。更甚者，当状态或者动作连

2024-08-23 09:48:17 1600

原创第6章 Dyna-Q算法

在强化学习中，“模型”通常指与智能体交互的环境模型，即对环境的状态转移概率和奖励函数进行建模。根据是否具有环境模型，强化学习分为两种：基于模型的强化学习和无模型的强化学习。无模型的强化学习根据智能体与环境交互采样得到的数据直接进行策略提升或者价值估计。前面提到的Sarsa和Q-learning算法都是无模型的强化学习方法，后续这个系列主要讨论的也都是无模型的强化学习方法。第四章讨论的策略迭代和价值迭代就是基于模型的强化学习方法，在这两个算法里面环境模型是已知的，这章介绍的Dyna-Q也是基础的基于模型的强化

2024-08-19 09:19:56 1562

qq_45481856的博客

原创第8章 DQN改进算法

原创第7章 DQN算法

原创第6章 Dyna-Q算法

原创第5章时序差分算法

原创强化学习-动态规划

原创马尔可夫决策过程 (2)

原创马尔可夫决策过程（1）

原创强化学习 --K臂老虎机(2)

原创 K臂赌博机(1)

原创初识强化学习

空空如也

空空如也