自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 强化学习的数学方法-策略梯度和演员评论家

函数拟合不仅适用于表示状态/动作值,还可用于表示策略。在本章中,将证明策略可以用参数化函数表示为 π(a∣s,θ)π(a|s,θ)π(a∣s,θ) ,其中 θ∈Rmθ∈R^mθ∈Rm 是一个参数向量。梯度方法是本书的一大突破,因为它采用了策略导向的算法。策略梯度法的优势可谓数不胜数:比如在处理大型状态/动作空间时效率更高;具备更强的泛化能力,因此在样本利用率方面也更胜一筹。如何定义最优?如何更新策略?如何获取动作的概率?假设 J(θ)J(θ)J(θ) 是一个标量指标,通过基于梯度的算法优化该指标即可获得最优

2025-08-17 19:22:29 1009

原创 强化学习笔记-RM,TD,function approximation

随机近似(Stochastic approximation, SA)是指为求解根查找或优化问题而采用的随机迭代算法的广义类。与许多其他根查找算法(如基于梯度的算法)相比,随机逼近算法具有显著优势,因为它不需要表达目标函数或其导数。Robbins-Monro (RM) 算法是随机近似理论中最经典、最基础的算法之一。考虑问题:求解方程 g(w)=0g(w) = 0g(w)=0 。这是一个广泛的问题,很多问题都可以转化为该形式。例如,求解 最优化 J(w)J(w)J(w) ,则该问题可以转化为求: g(w)=∇

2025-08-17 17:04:45 896

原创 强化学习数学笔记

对于一个 折扣回报 (discounted return)GtRt1γRt2γ2Rt3Gt​Rt1​γRt2​γ2Rt3​...vπsEGt∣Stsvπ​sEGt​∣St​s这个vπsv_π(s)vπ​s就是所谓的State-Value Function 状态价值函数动作价值函数(Q函数):$$————\$$即,动作价值即当前状态s 下,

2025-07-14 22:33:28 448

原创 Hugging Face 学习笔记

配置模型和一个预处理类(如分词器用于 NLP)所有这些类都可以通过一个通用的方法从预训练实例初始化该方法会(如果需要)下载、缓存并加载相关的类实例,来自HF Hub或保存的检查点在三个类的基础上,提供了两个 API:pipeline()用于快速使用模型对给定任务进行推理Trainer用于快速训练或微调 PyTorch 模型Pipeline是一个高度封装的,让我们可以简单的:指定任务,输入文本,获得结果。

2025-05-26 18:02:51 839

强化学习的数学原理记录笔记

强化学习的数学原理记录笔记

2025-08-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除