自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 强化学习——PPO算法

摘要:本文介绍了强化学习中的动作优势概念和PPO算法的核心机制。动作优势衡量特定动作相对于平均水平的优劣,通过Q函数与状态价值的差值计算,可降低策略梯度方法的方差。PPO算法使用clip函数限制策略更新幅度,防止新旧策略差异过大导致训练不稳定。其核心流程包括:采样轨迹、计算回报和优势函数(常用GAE方法)、构建包含策略损失、价值损失和熵损失的总目标函数,并支持对同一批数据多次优化。PPO通过概率比率裁剪机制平衡探索与利用,在保证训练稳定性的同时提升样本效率。

2026-03-07 19:51:48 624

原创 强化学习——reinforce算法

REINFORCE 的核心思想是通过采样环境,计算每个时间步的回报,并利用这些回报来更新策略。具体而言,REINFORCE 不像 Q-learning 等基于值的强化学习方法那样,通过估算状态值函数或动作值函数来间接获取策略,而是直接对策略进行优化,通过对策略梯度进行估算来指导策略更新。REINFORCE 方法的主要目标是通过逐步调整策略,使得最终的策略在长期运行中能够获得最大的回报。方差小:使用多条轨迹的回报对梯度进行平均,能够减少单条轨迹的随机波动,从而获得更稳定的梯度估计。

2026-02-06 04:08:07 965

原创 强化学习——DQN算法

如果没有目标Q网络,Q网络的目标值将随着Q网络的参数不断变化而快速变化,这可能导致Q值的估计不稳定。通过引入目标Q网络,DQN保证了目标Q值在一定时间内保持不变,从而提供了一个稳定的训练目标,避免了训练过程中的不稳定和发散。在许多现实世界的问题中,状态空间是连续的,Q-learning需要离散化这些连续的状态,这会导致信息丢失和效率低下。DQN使用了两个网络:一个是当前Q网络(用来预测Q值),另一个是目标Q网络(用来计算目标Q值)。网络的输入是当前的状态,输出是每个可能动作的Q值。

2026-02-05 00:00:30 774

原创 强化学习——sarsa算法

目标是:学习当前策略下的动作价值函数。

2026-01-22 23:31:19 219

原创 强化学习——Q-Learning算法

是一种强化学习算法,用来学习,其核心思想是:通过不断与环境交互,更新 Q 值表,使其收敛到最优 Q 值,从而得到最优策略。:不需要环境转移概率:更新时使用最大化动作(max),不一定是实际执行动作:学习 Q 值(动作价值函数)

2026-01-21 02:27:07 587

原创 强化学习——MDP算法

状态空间(S):环境可能的所有状态集合。动作空间(A):智能体可执行的动作集合。转移概率(P):P(s′∣s,a),在状态 s执行动作 a 后转移到状态 s′ 的概率。奖励函数(R):R(s,a,s′),执行动作后的即时奖励。折扣因子(γ):平衡当前与未来奖励的重要性(0≤γ<10≤γ<1)。

2026-01-21 00:53:23 392

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除