AGemini233-CSDN博客

原创强化学习的数学方法-策略梯度和演员评论家

函数拟合不仅适用于表示状态/动作值，还可用于表示策略。在本章中，将证明策略可以用参数化函数表示为 π(a∣s,θ)π(a|s,θ)π(a∣s,θ) ，其中 θ∈Rmθ∈R^mθ∈Rm 是一个参数向量。梯度方法是本书的一大突破，因为它采用了策略导向的算法。策略梯度法的优势可谓数不胜数：比如在处理大型状态/动作空间时效率更高；具备更强的泛化能力，因此在样本利用率方面也更胜一筹。如何定义最优？如何更新策略？如何获取动作的概率？假设 J(θ)J(θ)J(θ) 是一个标量指标，通过基于梯度的算法优化该指标即可获得最优

2025-08-17 19:22:29 1009

原创强化学习笔记-RM,TD,function approximation

随机近似（Stochastic approximation, SA）是指为求解根查找或优化问题而采用的随机迭代算法的广义类。与许多其他根查找算法（如基于梯度的算法）相比，随机逼近算法具有显著优势，因为它不需要表达目标函数或其导数。Robbins-Monro (RM) 算法是随机近似理论中最经典、最基础的算法之一。考虑问题：求解方程 g(w)=0g(w) = 0g(w)=0 。这是一个广泛的问题，很多问题都可以转化为该形式。例如，求解最优化 J(w)J(w)J(w) ，则该问题可以转化为求： g(w)=∇

2025-08-17 17:04:45 896

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

AGemini233的博客

原创强化学习的数学方法-策略梯度和演员评论家

原创强化学习笔记-RM,TD,function approximation

原创强化学习数学笔记

原创 Hugging Face 学习笔记

强化学习的数学原理记录笔记

空空如也

原创 强化学习的数学方法-策略梯度和演员评论家

原创 强化学习笔记-RM,TD,function approximation

原创 强化学习数学笔记

原创 Hugging Face 学习笔记

强化学习的数学原理记录笔记

空空如也

原创强化学习的数学方法-策略梯度和演员评论家

原创强化学习笔记-RM,TD,function approximation

原创强化学习数学笔记