RL基础算法优缺点总结

最新推荐文章于 2025-03-06 21:44:42 发布

濒临秃头的少女

最新推荐文章于 2025-03-06 21:44:42 发布

阅读量4.7k

点赞数 4

文章标签：算法强化学习

本文链接：https://blog.csdn.net/selinaliujunlan/article/details/120036847

版权

本文总结了强化学习中的基础算法，包括value-based（如Q-learning、DQN）、policy-based（如策略梯度、TRPO）和Actor-Critic方法，探讨了各自的核心思想和优缺点。Q-learning简单、收敛快，但受限于离散状态和动作空间；策略梯度适用于连续动作空间，但学习率选择困难；Actor-Critic结合两者优点，但需处理数据相关性问题。A3C和DPPO则利用异步思想提高效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RL基础算法优缺点总结）

RL算法主要分为三类：基于值（value-based）系列，基于策略梯度（Policy-gradient）系列，以及两者相结合的Actor-Critic系列。今天主要介绍这三类中典型的算法的核心思想以及它们各自的优缺点。

value-based 类别

首先从基于值这类算法说起，这类算法的特点是计算状态价值V（s）或者是状态动作价值Q（s,a），通过提高价值来优化策略。其中典型的算法有Q-learning、Sarsa、DQN，DDQN。

从Q-learning算法说起，它算是DQN这一系列算法的根基，核心思想就是建立和状态动作有关的奖励表格，我们称为Q表。根据表格选择动作，与环境进行交互，根据反馈回来的奖励再次更新表格，如此循环直到Q表收敛为止。它的优势就是简单，收敛快，因为是采用单步更新的方法，不用等到一个回合结束才去更新。同时它还是离线策略，即它选动作的行动策略和计算Q值的目标策略不一样，选动作采用epsilon贪婪策略，计算Q值采用贪婪策略。保证了探索性，不会收敛到局部最优。当然Q-learning的缺点也很显著，它只适用于状态，动作空间是离散，并且较小的场景。当状态，动作空间太大时，Q表就会变得很大，更新起来也很慢。

对比Q-learning算法来看Sarsa就很简单，它与Q-learning的核心思想一样也是建立Q表，只有一点不同，它是在线策略，即它的行动策略和目标策略都是采用的epsilon贪婪策略。

前面也说了Q-learning是DQN系列的鼻祖，人们