- 博客(55)
- 资源 (2)
- 收藏
- 关注
原创 近端策略优化PPO(Proximal Policy Optimization)算法
概念公式说明目标函数JθEπθ∑t0∞γtrtJθEπθ∑t0∞γtrtActor 优化目标,最大化轨迹期望累积奖励状态价值函数VπsEπθ∑k0∞γkrtk∣stsVπsEπθ∑k0∞γkrtk∣sts从状态sss出发,遵循策略πππ的期望回报动作价值函数QπsaEπθ∑k。
2026-01-27 17:38:10
475
原创 赵世钰《强化学习的数学原理》第十章重点总结
策略梯度方法(Policy Gradient Methods)的基本思想是最大化一个目标函数JθJ(\theta)Jθ来得到最优策略。用于最大化JθJ(\theta)Jθ的梯度上升算法是θt1θtα∇θlnπat∣stθt⋅qtstatθt1θtα∇θlnπat∣stθt⋅qtstat该式清楚地展示了如何融合基于策略的方法和基于价值的方法。
2026-01-24 17:36:49
563
原创 赵世钰《强化学习的数学原理》第九章重点总结
本章核心是策略梯度方法(Policy Gradient Methods)。即当用函数表示策略时,需要选择一个目标函数,进而优化该目标函数以得到最优策略。本章包括三个问题:目标函数构建、目标函数的梯度推导、如何用经验样本计算梯度并优化目标函数。核心是把策略优化转化为策略参数 θ 的梯度上升问题,实现直接策略搜索。
2026-01-24 10:33:28
574
原创 《强化学习的数学原理》中文版第5-7章 总结
核心思想基于经验回放,对每个状态 - 动作对 (s,a) 的回报(return)进行采样平均,直接估计 q(s,a);策略改进采用贪心策略,即π′sargmaxaqsaπ′sargmaxaqsa。关键前提要求每个状态 - 动作对 (s,a) 都能被无限次访问,否则无法保证 Q(s,a) 收敛到真实值。探索性缺陷基础 MC 本身没有主动探索机制:一旦策略收敛到局部最优贪心策略,就会停止尝试其他动作,导致无法发现更优的动作选择,即陷入探索不足的问题。
2026-01-20 17:09:12
621
原创 《强化学习的数学原理》中文版第2章-第4章总结
2.策略改进:基于刚刚计算出的价值函数,对每个状态进行检查,看是否存在一个动作,能比当前策略选择的动作带来更高的价值。此外,由于状态值可用于评价策略的优劣,因此,根据贝尔曼方程求解某一策略的状态值的过程称为策略评价。在值迭代(Value Iteration)的过程中,生成的中间值不被认为是严格意义上的“状态值”(State Value),主要原因在于。不显式地维护一个策略,直接通过贝尔曼最优方程,将策略改进和价值评估合并为一步,假设每一步都是最优的。因此,策略迭代过程中的中间值,都是某个真实策略的状态值。
2026-01-18 18:24:56
661
原创 傅里叶变换、拉普拉斯变换、Z 变换的定义及关系
针对绝对可积的连续时间信号ftf(t)ft,傅里叶变换建立了时域与频域的直接映射,核心是将信号分解为不同频率的正弦 / 余弦分量的叠加。正变换FjωFft∫−∞∞fte−jωtdtFjωFft)]∫−∞∞fte−jωtdt其中,ω\omegaω为角频率rad/srad/s),FjωF(j\omega)Fjω是ftf(t)ft的傅里叶变换,表征信号在不同频率下的幅度和相位分布。逆变换ftF−。
2025-12-15 22:05:17
742
原创 证明复指数函数集在区间[t0, t0+T0]上是完备正交函数集
要证明复指数函数集ϕntejnω0tn−∞∞在区间t0t0T0(其中T0ω02π和。
2025-12-09 21:03:03
990
原创 雷达发射出来的相干脉冲串,为什么其频谱是一根根独立的离散谱线
雷达 “相干发射” 的核心是信号的频率、相位具有严格稳定性和可预测性(非相干信号如噪声的频率、相位随机波动)。实际雷达相干信号多为周期性信号(如脉冲调制的正弦波、连续波 CW),其数学本质是:信号可表示为周期函数ststT0ststT0T0T_0T0为信号周期),且相位随时间线性变化ϕt2πf0tϕ0ϕt2πf0tϕ0f0f_0f0为载频,ϕ0\phi_0ϕ0为初始相位,无随机抖动)。
2025-12-09 18:38:20
874
原创 对于连续时间周期信号,为什么其能展开为傅里叶级数的形式?和正交分解是什么关系?
设ϕ1t\phi_1(t)ϕ1t和ϕ2t\phi_2(t)ϕ2t是定义在区间t1t2[t_1,t_2]t1t2上的复值函数,它们的内积定义为⟨ϕ1tϕ2t⟩∫t1t2ϕ1t⋅ϕ2∗tdt⟨ϕ1tϕ2t)⟩∫t1t2ϕ1t⋅ϕ2∗tdt式中ϕ2∗tϕ2∗t是ϕ2t\phi_2(t)ϕ2t的共轭函数。
2025-12-09 11:58:26
922
原创 Python 3.8.10(Win64)+ JSBSim 完整安装验证
1、双击下载好的python-3.8.10-amd64.exe,第一步务必勾选「Add Python 3.8 to PATH」(核心!2、点击「Customize installation」(自定义安装)→ 直接点「Next」(默认组件即可);4、点击「Install」,等待安装完成(约 1 分钟)→ 安装完成后点击「Close」。1、按下Win+R,输入cmd,打开管理员命令提示符(右键 CMD→以管理员身份运行);1、每次使用 JSBSim:打开 CMD(无需管理员),执行。
2025-12-07 10:56:38
637
原创 向量、基向量、线性变换及其行列式、秩、向量点积
线性变换是操纵空间的一种手段,它保持网格线平行且等距分布,并保持原点不动。这种变换只需要几个数字就能描述清楚,这些数字就是变换后基向量的坐标,以这些坐标为列所构成的矩阵为我们提供了一种描述线性变换的语言,而矩阵向量乘法是计算线性变换作用于给定向量的一种途径。这里重要的一点是,每当看到一个矩阵时,都可以把它解读为对空间的一种特定变换。复合变换原则,依次变换,即先变换的矩阵乘待变换的向量后,得到的结果,再用后变换的矩阵乘此结果向量。从矩阵角度描述,即先变换对应的矩阵M1在后变换对应矩阵M2的右侧。
2025-10-27 17:00:34
1011
原创 windows10卸载软件不成功,清除控制面板里应用中的残留
windows10,有时候通过控制面板中的“应用程序”卸载某个软件时蓝屏,导致软件已卸载,但仍然的“应用程序”中存在该软件的卸载选项,但点击卸载时系统回提示找不到对应应用程序。想从控制面板中的“应用程序”中清除这个残留。用 “win + R”打开 regeidt, 即注册表编辑器,在以下两个路径下找到残存的软件标识,直接删除即可。
2023-11-20 20:37:19
5714
原创 11 抽象向量空间
可加性:对两个向量进行相加,然后对它们的和进行变换,得到的结果和将变换后的两个向量相加一致。成比例性:将一个向量与某个数相乘,然后对其进行变换,得到的结果和变换后的向量与这个数相乘一致即线性变换保持向量加法运算和数乘运算。前面讨论的网格线平行且等距分布,是这两条性质在二维平面这一特殊情况下的体现。图1 线性的严格定义因此,求导是线性运算。满足可加性和数乘性(成比例)质。
2023-11-07 19:35:15
602
原创 10 特征向量与特征值
图1 特征向量线性变换过程中,大多数向量离开了其自己张成的空间(也就是通过原点和向量尖端的直线),不过,有些向量的确留在了其张成的空间,这意味着矩阵对它的作用仅仅是拉伸或压缩而已,这些特殊的向量就是变换的特征向量;每个特征向量都有一个相关的值,被称为特征值,这个值是衡量变换中拉伸或压缩比例的因子。负的特征值意味着线性变换使得空间发生了翻转,而特征向量停留在它张成的直线上,并未发生旋转。
2023-11-06 22:31:19
467
原创 06 逆矩阵、列空间与零空间
当秩达到最大值时,意味着秩与列数相等,我们称之为“满秩”。零向量一定在列空间中,因为线性变换必须保持原点位置不变。对于一个满秩变换来说,唯一能在变换后落在原点的就是零向量本身。但对于一个非满秩变换来说,它将空间压缩到一个更低的维度上,也就是说会有一系列向量在变换后称为零向量。
2023-11-05 17:48:23
419
原创 03 矩阵与线性变换
线性变换是操纵空间的一种手段,它保持网格线平行且等距分布,并保持原点不动。这种变换只需要几个数字就能描述清楚,这些数字就是变换后基向量的坐标,以这些坐标为列所构成的矩阵为我们提供了一种描述线性变换的语言,而矩阵向量乘法是计算线性变换作用于给定向量的一种途径,如图4所示。这里重要的一点是,每当你看到一个矩阵时,你都可以把它解读为对空间的一种特定变换。
2023-11-04 23:25:40
618
原创 飞行器坐标转换
本文定义的是右手直角坐标系,x−y−zx-y-zx−y−z轴分别为北-天-东。从AAA坐标系到BBB坐标系是分别绕y−z−xy-z-xy−z−x轴,即天-东-北旋转ψ−θ−γψ−θ−γ。如果AAA是惯性系,BBB是机体系,则这三个角度分别为偏航角、俯仰角、横滚角。图1 惯性系到机体系。
2023-11-04 17:42:55
1218
原创 VS2010打开VC6工程进行调试时的问题解决方法
在工程属性页,“配置属性—链接器—输入—忽略特定默认库” 中添加编译时提示无法找到的几个lib库,如下图所示。
2023-07-23 19:56:47
578
原创 用matlab实现飞机运动过程中正激波与斜激波的生成
由于波源和观察者之间有相对运动,导致观察者接收(或感知)到的波的频率和波源发出波的固有频率不一致,这种现象就是多普勒效应。用matlab实现飞机运动过程中正激波斜激波生成的示意图。
2022-10-26 18:25:44
745
原创 win10 ubuntu双系统重装win10并修复启动项
win10 ubuntu双系统重装win10并修复启动项1 ghost重装win102 修复双系统启动项1 ghost重装win10win10需要重装,用ghost的方式。1、首选用U盘启动winpe。2、cmd下,进入x:\program files\ghost32,运行ghost32 -ntexact启动ghost,选择已有的.ghost文件恢复系统。完了之后win10和ubuntu的启动项都在,和未重做系统之前一样。如果不行:2、直接启动ghost,选择已有的.ghost文件恢复系
2020-06-14 13:07:32
1867
1
原创 ubuntu下安装octave
ubuntu下安装octave参考https://www.jianshu.com/p/08c13669cc47依次运行如下命令即可:sudo apt-add-repository ppa:octave/stablesudo apt-get updatesudo apt-get install octaveoctave
2020-06-12 21:53:00
1338
1
自己编写的多普勒效应matlab源代码
2019-12-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅