大爱仙尊-CSDN博客

原创强化学习——PPO算法

摘要：本文介绍了强化学习中的动作优势概念和PPO算法的核心机制。动作优势衡量特定动作相对于平均水平的优劣，通过Q函数与状态价值的差值计算，可降低策略梯度方法的方差。PPO算法使用clip函数限制策略更新幅度，防止新旧策略差异过大导致训练不稳定。其核心流程包括：采样轨迹、计算回报和优势函数（常用GAE方法）、构建包含策略损失、价值损失和熵损失的总目标函数，并支持对同一批数据多次优化。PPO通过概率比率裁剪机制平衡探索与利用，在保证训练稳定性的同时提升样本效率。

2026-03-07 19:51:48 624

原创强化学习——reinforce算法

REINFORCE 的核心思想是通过采样环境，计算每个时间步的回报，并利用这些回报来更新策略。具体而言，REINFORCE 不像 Q-learning 等基于值的强化学习方法那样，通过估算状态值函数或动作值函数来间接获取策略，而是直接对策略进行优化，通过对策略梯度进行估算来指导策略更新。REINFORCE 方法的主要目标是通过逐步调整策略，使得最终的策略在长期运行中能够获得最大的回报。方差小：使用多条轨迹的回报对梯度进行平均，能够减少单条轨迹的随机波动，从而获得更稳定的梯度估计。

2026-02-06 04:08:07 965

原创强化学习——DQN算法

如果没有目标Q网络，Q网络的目标值将随着Q网络的参数不断变化而快速变化，这可能导致Q值的估计不稳定。通过引入目标Q网络，DQN保证了目标Q值在一定时间内保持不变，从而提供了一个稳定的训练目标，避免了训练过程中的不稳定和发散。在许多现实世界的问题中，状态空间是连续的，Q-learning需要离散化这些连续的状态，这会导致信息丢失和效率低下。DQN使用了两个网络：一个是当前Q网络（用来预测Q值），另一个是目标Q网络（用来计算目标Q值）。网络的输入是当前的状态，输出是每个可能动作的Q值。

2026-02-05 00:00:30 774

原创强化学习——sarsa算法

目标是：学习当前策略下的动作价值函数。

2026-01-22 23:31:19 219

原创强化学习——Q-Learning算法

是一种强化学习算法，用来学习，其核心思想是：通过不断与环境交互，更新 Q 值表，使其收敛到最优 Q 值，从而得到最优策略。：不需要环境转移概率：更新时使用最大化动作（max），不一定是实际执行动作：学习 Q 值（动作价值函数）

2026-01-21 02:27:07 587

原创强化学习——MDP算法

状态空间（S）：环境可能的所有状态集合。动作空间（A）：智能体可执行的动作集合。转移概率（P）：P(s′∣s,a)，在状态 s执行动作 a 后转移到状态 s′ 的概率。奖励函数（R）：R(s,a,s′)，执行动作后的即时奖励。折扣因子（γ）：平衡当前与未来奖励的重要性（0≤γ<10≤γ<1）。

2026-01-21 00:53:23 392

2303_76648144的博客

原创强化学习——PPO算法

原创强化学习——reinforce算法

原创强化学习——DQN算法

原创强化学习——sarsa算法

原创强化学习——Q-Learning算法

原创强化学习——MDP算法

空空如也

空空如也

原创 强化学习——PPO算法

原创 强化学习——reinforce算法

原创 强化学习——DQN算法

原创 强化学习——sarsa算法

原创 强化学习——Q-Learning算法

原创 强化学习——MDP算法

空空如也

空空如也

原创强化学习——PPO算法

原创强化学习——reinforce算法

原创强化学习——DQN算法

原创强化学习——sarsa算法

原创强化学习——Q-Learning算法

原创强化学习——MDP算法