强化学习-Q-learning、SARSA和PPO等算法

最新推荐文章于 2025-04-21 21:00:00 发布

timer_017

最新推荐文章于 2025-04-21 21:00:00 发布

阅读量540

点赞数 3

文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/timer_017/article/details/139930099

版权

强化学习

强化学习是一种机器学习方法，它关注智能体如何通过与环境的交互来最大化期望的累积奖励。在这个过程中，智能体不断尝试不同的行为策略，并根据结果调整策略，以提高长期的性能。以下是几种常见的强化学习算法：

Q-learning:

Q-learning: 这是一种基于值的策略，它使用一张称为Q-table（动作-状态值表）来存储每个状态下每种可能行动的价值。智能体通过探索和利用（Exploration and Exploitation）来更新这些值，目标是最小化未来期望的后悔。Q-learning通常用于离散状态和动作空间。

SARSA

SARSA (State-Action-Reward-State-Action): 也是一种基于值的学习算法，类似于Q-learning，但它在线性地更新当前状态-动作对的Q值，而不是只依赖最终奖励。这使得SARSA能够更直接地利用经验来指导学习，适用于连续或离散的状态和动作空间。

Proximal Policy Optimization (PPO)

Proximal Policy Optimization (PPO): 这是一个模型-free的策略梯度算法，它在优化策略梯度的过程中引入了 clip机制，以防止训练过程中的大跳跃，从而确保了学习过程的稳定性。PPO适用于连续动作空间，特别适合处理高维和复杂的环境。

在强化学习中，Q-learning是如何通过探索和利用来更新Q值的？

在强化学习中，特别是Q

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

timer_017

关注关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Pytorch项目实战】之强化学习：Q-Learning、SARSA、DQN

shinuone的博客

01-31

1251

Q-Learning、SARSA、深度Q网络（Deep Q Network，DQN）、策略梯度（Policy Gradients）等。：环境（Environment）、主体（Agent）、状态（State）、动作（Action）、奖励（Reward）的行动策略，有些动作将始终无法选择，进而导致无法更新Q值，将不利于发现更有价值的情况。问题1：（1）在实际应用下，由于场景很复杂，很难定义出离散且有限的状态和动作。若安装失败就多试几次。问题2：（2）即使能够定义，数量非常大的情况下，无法用数组存储。

从REINFORCE到PPO，看Policy Gradient的前世今生

马小疼

09-05

9686

从REINFORCE到PPO，看Policy Gradient的前世今生 Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法，后者是on-line、off-policy的方法。前者是策略迭代，关心的是策略网络的参数；后者是值迭代，关心的是值网络的输出。随着RL的不断发展，这两类方法在不断交错领跑的过程...

参与评论您还未登录，请先登录后发表或查看评论

Java中的深度强化学习算法比较：DQN与PPO的优缺点

微赚淘客系统开发者博客

09-26

1535

PPO是OpenAI提出的深度强化学习算法，它是策略梯度方法中的一种优化。PPO通过约束策略更新的范围来实现高效的策略优化，避免了策略过度更新引发的性能退化。PPO是基于策略梯度的方法，在Java中实现PPO需要更为复杂的神经网络结构和策略更新逻辑。DQN和PPO是强化学习中非常流行的两种算法，分别适用于不同的任务场景。DQN适合在动作空间有限、训练过程简单的环境中应用，而PPO则擅长处理复杂、连续的动作空间任务。在这个简单的DQN实现中，我们使用了一个二维Q表来存储状态-动作对的Q值。

【强化学习笔记】2020 李宏毅 强化学习课程笔记（PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL）

lucius-liu.cn

06-15

1158

前言如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。文章目录前言IntroductionTwo Learning ModesReinforcement LearningBasic ideasDifficultiesPolicy-basedNeural network as ActorGoodness of ActorPick the best ActorValue-basedState value functionState-act

强化学习Q-learning、DCN和PPO

Zeus_daifu的博客

04-17

1954

Q-learning是一种强化学习算法，其主要目的是通过学习如何做出最优决策来最大化长期奖赏。在Q-learning中，我们使用一个称为Q-table的表格来保存每个状态下可用行动的值函数。这个值函数表示了采取某个特定行动后，预期获得的长期奖赏。重复步骤2至4，直到达到任务结束条件。Q-learning有一些优缺点。优点包括：具有较好的收敛性，不需要先验知识，可处理连续状态和动作空间问题等。缺点包括相对于其他算法需要更多的计算资源和时间，并且容易陷入局部最优解等。

强化学习-李(O)：综述【Critic--＞Q-Learning算法、Actor/Policy π--＞Policy Gradient算法--off--＞PPO算法、Actor-Critic算法】

u013250861的博客

12-30

7085

强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法。它强调智能体通过与环境的直接互动来学习，而不需要可效仿的监督信号或对周围环境的完全建模，因而与其他的计算方法相比具有不同的范式。 强化学习使用马尔可夫决策过程的形式化框架，使用状态，动作和收益定义学习型智能体与环境的互动过程。这个框架力图简单地表示人工智能问题的若干重要特征，这些特征包含了对因果关系的认知，对不确定性的认知，以及对显式目标存在性的认知。价值与价值函数是强化学习方法的重要特征，价值函数对于策略空间的有效搜索来说十分重

从Q-learning到PPO大全深度强化学习总结和理解

weixin_43167121的博客

02-28

5245

强化学习总结和理解，都是自己最近学习的总结，如果有不对的地方还请指出这一周一直在学强化学习，总结了常见经典算法，强化学习的资源很少，2015年alphago的成功才火起来。不知道未来会不会继续有突破，学完感觉比深度学习难了很多，资源也非常少，对数学要求极高，还需要提高数学和实践能力，以下为自己看了几十遍算法总结的心得。 强化学习分为在线学习和离线学习 Off-policy:q-learning...

Q-Learning 、Sarsa与 DQN算法

XiaoFengsen的博客

07-23

3986

主要介绍了Q-Learning 算法与 DQN 算法的原理与异同点

强化学习的Q-Learn算法ppt资源

03-27

强化学习的主要算法：包括Q-learning、SARSA、DQN、A3C、TRPO、PPO和SAC等。这些算法各有特点，适用于不同的场景和任务。例如，Q-learning和SARSA是基于值函数的强化学习算法，旨在学习最优策略以最大化累积奖励；而...

Python中的强化学习：核心算法与代码实现

11-06

随着计算能力的提升和算法的进步，深度学习技术开始被结合到强化学习中，其中DQN是一种将深度学习技术应用于Q-Learning的算法。DQN使用深度神经网络来近似Q值函数，特别适用于具有高维状态空间的问题，如视频游戏。...

强化学习-PPO（Proximal Policy Optimization）笔记

Zhang Phil

08-13

4140

强化学习可以划分成基于值和基于策略两种。深度强化学习领域，将深度学习与基于值的Q-Learning算法相结合产生了DQN算法。具代表性的是Q-Learning与Policy Gradient算法。Q-Learning算法与深度学习相结合产生了Deep Q Network，又出现将两种方式优势结合在一起的Actor（Agent）-Critic，PPO（Proximal Policy Optimization）等算法。在监督学习中，实现损失函数、做梯度下降很容易，而且基本上调节参数就能够得到好的结果。但是在

强化学习（PPO、DQN、A3C）简述

weixin_65978597的博客

10-05

2841

1、计算机眼中什么是环境（state）

强化学习总结

NuvoleWalker的博客

11-13

3238

强化学习：寻找一个合适的函数，将观察到的环境（environment）作为输入，目标是最大化回报（reward）（从经验中学习）

深度增强学习PPO（Proximal Policy Optimization）算法源码走读

热门推荐

世事难料，保持低调

05-27

10万+

OpenAI出品的baselines项目是一系列reinforcement learning（强化学习或增强学习）算法的实现。现在已经有包括DQN,DDPG,TRPO,A2C,ACER,PPO在内的近十种经典算法实现，同时它也在不断扩充中。它为对RL算法的复现验证和修改实验提供了很大的便利。本文主要走读其中的PPO（Proximal Policy Optimization）算法的源码实现。PPO是...

强化学习介绍，Policy-Gradient（包含PPO中的部分），李宏毅课程笔记（整合了Lec4的Q-Learning及Imitation Learning）

KongCDY的专栏

09-06

948

老师的PPT下载。 RL与一般机器学习不同的地方：当前的动作会影响到未来。影响环境、影响接下来看到的东西。 observation与State：observation是更raw的场景或图像，更原始。State是经过处理、去掉冗余后的observation。当模型能力很强的时候，例如一些游戏直接输入画面，那么observation与State就一样了。仅仅只将与环境的互动问题当...

强化学习--信赖域系方法：TRPO、PPO（附适合初学者阅读的完整PPO代码连接）

秋曾万的博客

09-05

1万+

在前面的章节里，我们已经介绍了基于策略的强化学习算法，也提到了异策略强化学习需要满足的条件：由于重要性采样的关系我们希望每次更新的时候策略分布之间差距并不是很大，这实际上是一种约束，即我们希望能每次更新的时候不大幅度地改变分布的形态，基于这种考虑openai的前辈们提出了TRPO算法，但是TRPO算法会有一些缺陷，他拿二次函数去近似约束条件，拿一次函数近似待优化的损失函数，这种近似会造成收敛上的困...

强化学习Sarsa，Q-learning的收敛性最优性区别（on-policy跟off-policy的区别）

开贰锤

07-10

1万+

on-policy：生成样本的policy（value function）跟网络更新参数时使用的policy（value function）相同。典型为SARAS算法，基于当前的policy直接执行一次动作选择，然后用这个样本更新当前的policy，因此生成样本的policy和学习时的policy相同，算法为on-policy算法。该方法会遭遇探索-利用的矛盾，光利用目前已知的最优选择，可能学不到最

【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法

shura的技术空间

01-11

9万+

morvan zhou教学视频https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-4-DPPO/ Hung-yi Lee课程http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html PPO论文https://arxiv.org/abs...

算法之动态规划