- 博客(4)
- 收藏
- 关注
原创 强化学习的数学方法-策略梯度和演员评论家
函数拟合不仅适用于表示状态/动作值,还可用于表示策略。在本章中,将证明策略可以用参数化函数表示为 π(a∣s,θ)π(a|s,θ)π(a∣s,θ) ,其中 θ∈Rmθ∈R^mθ∈Rm 是一个参数向量。梯度方法是本书的一大突破,因为它采用了策略导向的算法。策略梯度法的优势可谓数不胜数:比如在处理大型状态/动作空间时效率更高;具备更强的泛化能力,因此在样本利用率方面也更胜一筹。如何定义最优?如何更新策略?如何获取动作的概率?假设 J(θ)J(θ)J(θ) 是一个标量指标,通过基于梯度的算法优化该指标即可获得最优
2025-08-17 19:22:29
1009
原创 强化学习笔记-RM,TD,function approximation
随机近似(Stochastic approximation, SA)是指为求解根查找或优化问题而采用的随机迭代算法的广义类。与许多其他根查找算法(如基于梯度的算法)相比,随机逼近算法具有显著优势,因为它不需要表达目标函数或其导数。Robbins-Monro (RM) 算法是随机近似理论中最经典、最基础的算法之一。考虑问题:求解方程 g(w)=0g(w) = 0g(w)=0 。这是一个广泛的问题,很多问题都可以转化为该形式。例如,求解 最优化 J(w)J(w)J(w) ,则该问题可以转化为求: g(w)=∇
2025-08-17 17:04:45
896
原创 强化学习数学笔记
对于一个 折扣回报 (discounted return)GtRt1γRt2γ2Rt3GtRt1γRt2γ2Rt3...vπsEGt∣StsvπsEGt∣Sts这个vπsv_π(s)vπs就是所谓的State-Value Function 状态价值函数动作价值函数(Q函数):$$————\$$即,动作价值即当前状态s 下,
2025-07-14 22:33:28
448
原创 Hugging Face 学习笔记
配置模型和一个预处理类(如分词器用于 NLP)所有这些类都可以通过一个通用的方法从预训练实例初始化该方法会(如果需要)下载、缓存并加载相关的类实例,来自HF Hub或保存的检查点在三个类的基础上,提供了两个 API:pipeline()用于快速使用模型对给定任务进行推理Trainer用于快速训练或微调 PyTorch 模型Pipeline是一个高度封装的,让我们可以简单的:指定任务,输入文本,获得结果。
2025-05-26 18:02:51
839
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅