- 博客(6)
- 收藏
- 关注
原创 强化学习——PPO算法
摘要:本文介绍了强化学习中的动作优势概念和PPO算法的核心机制。动作优势衡量特定动作相对于平均水平的优劣,通过Q函数与状态价值的差值计算,可降低策略梯度方法的方差。PPO算法使用clip函数限制策略更新幅度,防止新旧策略差异过大导致训练不稳定。其核心流程包括:采样轨迹、计算回报和优势函数(常用GAE方法)、构建包含策略损失、价值损失和熵损失的总目标函数,并支持对同一批数据多次优化。PPO通过概率比率裁剪机制平衡探索与利用,在保证训练稳定性的同时提升样本效率。
2026-03-07 19:51:48
624
原创 强化学习——reinforce算法
REINFORCE 的核心思想是通过采样环境,计算每个时间步的回报,并利用这些回报来更新策略。具体而言,REINFORCE 不像 Q-learning 等基于值的强化学习方法那样,通过估算状态值函数或动作值函数来间接获取策略,而是直接对策略进行优化,通过对策略梯度进行估算来指导策略更新。REINFORCE 方法的主要目标是通过逐步调整策略,使得最终的策略在长期运行中能够获得最大的回报。方差小:使用多条轨迹的回报对梯度进行平均,能够减少单条轨迹的随机波动,从而获得更稳定的梯度估计。
2026-02-06 04:08:07
965
原创 强化学习——DQN算法
如果没有目标Q网络,Q网络的目标值将随着Q网络的参数不断变化而快速变化,这可能导致Q值的估计不稳定。通过引入目标Q网络,DQN保证了目标Q值在一定时间内保持不变,从而提供了一个稳定的训练目标,避免了训练过程中的不稳定和发散。在许多现实世界的问题中,状态空间是连续的,Q-learning需要离散化这些连续的状态,这会导致信息丢失和效率低下。DQN使用了两个网络:一个是当前Q网络(用来预测Q值),另一个是目标Q网络(用来计算目标Q值)。网络的输入是当前的状态,输出是每个可能动作的Q值。
2026-02-05 00:00:30
774
原创 强化学习——Q-Learning算法
是一种强化学习算法,用来学习,其核心思想是:通过不断与环境交互,更新 Q 值表,使其收敛到最优 Q 值,从而得到最优策略。:不需要环境转移概率:更新时使用最大化动作(max),不一定是实际执行动作:学习 Q 值(动作价值函数)
2026-01-21 02:27:07
587
原创 强化学习——MDP算法
状态空间(S):环境可能的所有状态集合。动作空间(A):智能体可执行的动作集合。转移概率(P):P(s′∣s,a),在状态 s执行动作 a 后转移到状态 s′ 的概率。奖励函数(R):R(s,a,s′),执行动作后的即时奖励。折扣因子(γ):平衡当前与未来奖励的重要性(0≤γ<10≤γ<1)。
2026-01-21 00:53:23
392
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅