自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(410)
  • 收藏
  • 关注

原创 lc题集解答

lc解答

2021-01-30 11:06:39 467 1

原创 CIDEr指标

的左半边,计算这个n-gram在全句中的频率,值越大,说明在这个句子中,这个n-gram出现得更频繁,也就更重要。公式的右半边,分母计算的是这个n-gram在多少图片的caption中出现过,分母越大,说明这个n-gram在越多的caption中出现,说明它越不”稀奇",右半边取值越低。综合来看,这个公式的含义其实就是在计算TF-IDF,只是原本的计算对象是单词,在上下文计算对象是n-gram。的TF-IDF向量余弦相似度,我们可以评估两个句子中n-gram使用次数的相似度。建议读原论文,笔记只是辅助。

2025-09-10 09:45:23 301

原创 diffusion model(0.2) DDPM

这里的公式来自原生diffusion model论文的Table App.1,它和下文的reverse diffusion kernel一样。由于KL散度都是高斯分布之间的比较,所以可以通过Rao-Blackwellized的方式来计算,而不需要用高方差的蒙特卡洛估计。都是由被训练的神经网络预测的。加了个负号,它跟原生diffusion论文里的公式10第一行是一样的,实际上下图第一行可以看做是。公式2的左边是马尔可夫链的假设,右边也来自原生diffusion论文的Table App.1。

2025-09-09 19:08:50 32

原创 《Bishop PRML》10.1.2 Properties of factorized approximations(2) alpha散度 KL距离 海林格距离

alpha散度的一般形式。另一个等效的一般形式,参考参考。

2025-09-09 12:40:40 23

原创 comfyUI 暴露网络restful http接口

https://zhuanlan.zhihu.com/p/686893291 暴露websocket接口。

2025-09-08 21:52:13 197

原创 协方差矩阵(1) 旋转缩放

的"协方差矩阵的特征分解"

2025-09-08 12:12:40 27

原创 《Bishop PRML》10.1变分推断 (3) 理解VAE reconstruction loss

参考有人提到,“On page 5 of the VAE paper, it’s clearly stated…”,当我们假设px∣z是高斯分布的时候,将高斯分布的pdf方程带入到ELBO的第一项,就会得到相似MSE的项。而当假设是伯努利分布时,带入到ELBO的第一项,能得到相似CE loss的项。

2025-08-31 18:07:44 37

原创 《Bishop PRML》10.1 变分推断(3) 理解VAE KL loss

代码通过 mu.pow(2)、 logvar.exp()、 -logvar 和 -1 实现了这一公式,并通过 sum(dim=1) 对潜在维度求和,计算每个样本的KL散度。虽然重参数化(self.reparameterize(mu, logvar, nsamples))不直接出现在KL损失的计算中,但它是VAE的关键步骤,用于从。以下是对代码中KL损失计算的数学推导,结合代码中的实现逐步讲解。sum(dim=1):对每个样本的潜在维度求和,得到每个样本的KL散度。是KL散度,衡量变分分布与先验分布的差异。

2025-08-31 14:13:59 42

原创 信息熵 交叉熵 条件熵

信息熵∑x​pxlogpx1​−∑plogpx视为对概率分布px编码信息所需的最小平均编码数。logpx1​表达了编码该信息所用的比特数。交叉熵∑x​pxlogqx1​表达了基于预测分布qx的编码策略,在真实分布px下编码信息所需的最小平均编码数。因此,KL(q||p)=交叉熵-信息熵,也就是说,使用qx的策略,在编码信息时的最小平均编码数,会多于使用真实分布px的策略。

2025-08-31 02:05:56 35

原创 《Bishop PRML》10.1. 变分推断(2)理解VAE

VAE的解码过程是从概率分布的一个采样。生成图片时,首先基从随机分布采样隐向量。如何理解变分推断公式中,Z和X的含义是什么?,然后利用解码器将其恢复成图片。AE的编码和解码是确定性的。

2025-08-30 13:55:20 40

原创 《Bishop PRML》10.1.2 Properties of factorized approximations

因子化分解。

2025-08-27 14:09:35 19

原创 变分推断(1.1) 证明最大熵分布就是高斯分布

本文推理前半段参考。当给定均值为μ,方差为σ2后,在所有的概率分布中,哪一个分布能够使得熵H最大?首先,熵的公式定义如下:为此,我们需要找到一个函数p(x),使得以下泛函公式取得最大值。并受到以下三个约束条件。归一化约束,概率密度和为1,均值约束,方差约束,当我们求泛函极值时,始终要受到以上三个约束。因此,我们结合三个约束,列出拉格朗日公式,其中拉格朗日乘数分别为λ1​λ2​λ3​。求泛函L对函数p的偏导,并使之等于0,

2025-08-24 15:05:57 29

原创 《Bishop PRML》Appendix D

可阅读:

2025-08-23 22:28:30 277

原创 diffusion model(1.4) 相关论文阅读清单

《Denoising Diffusion Probabilistic Models》DDPM论文。

2025-08-18 16:06:36 124 1

原创 《Bishop PRML》10.1.1 Factorized distributions

https://stats.stackexchange.com/questions/4417/what-are-the-factors-that-cause-the-posterior-distributions-to-be-intractable

2025-08-15 12:08:52 109

原创 城市异常检测(2) VadClip

ucf_test.py,论文指标AUC=88.02,对应AUC1。xd_test.py,论文指标AP=84.51,对应AP2。

2025-07-31 15:23:55 56

原创 diffusion model(0.1) 原生diffusion model

极大似然估计(MLE)是一种通过最大化样本数据集的对数似然函数来估计模型参数θ的方法,其本质是让模型分布Pθ尽可能接近真实数据分布。相关资源指出,这一过程与最小化KL散度等价,因为KL散度可分解为交叉熵与信息熵之差(H(A,B)=DKL(A∥B)+SA)。扩散模型等应用中,MLE通过参数优化实现对真实概率分布的逼近。

2025-07-30 02:03:18 72

原创 aigc(1.1) opensora-2.0

下图来自论文,可见VAE是一个因果注意力的3D结构。在配图左侧,视频会被编码为video token序列,而在配图右侧,去噪的video token会被解码为视频。论文图6是hunyuan VAE的结构,可见视频序列在编码过程中,时空上的尺寸会减小,从而减少了序列长度。open sora2.0的VAE模块来自HunyuanVideo,

2025-07-28 17:15:50 85

原创 分类器的衡量指标 PR曲线(precision recall) ROC曲线(TPR FPR)

ROC 曲线和 PR 曲线都是用在二分类中,且涉及到下图的几个概念 (摘自 The Relationship Between Precision-Recall and ROC Curves)上面四个指标用大白话解释如下Recall:查全率,正样本中被预测出来是正的比例 (越大越好)Precision:查准率,预测的正样本中被正确预测的比例 (越大越好)True Positive Rate:跟 Recall 定义一样 (越大越好)FPR : 负样本中被预测为正的比例 (越小越好)

2025-07-28 16:27:16 80

原创 强化学习(1.3) PPO

总结来说,当激励为正时,min函数会让较小的动作概率变化保持原值,而不必被clip函数放大影响。当激励为负时,min函数会让较大的动作概率变化保持原值,这样负的激励不会被clip抚平。可以将下面两张图合起来看,表达的意思一样。

2025-07-14 13:50:13 54

原创 强化学习(1.2) TRPO

TRPO解决了此前策略在更新过程中,为了模型稳定收敛而受限于更新步长的问题。此前的策略梯度法,如REINFORCE、Actor-Critic,依赖固定步长(学习率)的更新策略。若步长过大,单次更新可能导致策略性能剧烈下降(即策略崩溃),且难以恢复。若步长过小,则收敛速度极慢,样本效率低下。

2025-07-14 01:04:20 55

原创 PCA主成分分析(2) 为什么当d小于n时,方差的和不超过最大的d个特征值之和?

设每个向量有n维,现在要降维到d维。首先,根据的推导,可知数据点x在坐标轴u上的映射坐标k,等于向量点乘⟨xu⟩。所有数据点在坐标轴u上映射后的无偏估计方差和是n−11​∑i1N​⟨xi​u1​⟩2,省略pdf的中间步骤,化为u1T​n−11​XXTu1​u1TCu1​。其中,协方差矩阵Cn−11​XXT。协方差矩阵Cn−11​XXT的推导过程可以上网搜索。

2025-07-04 00:51:04 32

原创 PCA主成分分析(3) 其它数学基础证明

如果要映射到d维,但特征向量不足d个,剩下的坐标轴怎么办?

2025-06-23 01:15:34 35

原创 AI视频编码器(0.4.3) 调试训练bug——使用timm SoftTargetCrossEntropy时出现loss inf

由于传入的target变量形状为[8,1],在传入timm SoftTargetCrossEntropy时,出现了不符合意图的计算,导致部分样本的分类loss大于65535,超过了torch.float16的最大整数表达范围。

2025-06-03 16:56:51 246

原创 siglip2(2) Naflex模型的动态分辨率原理

修改preprocessor_config.json,设置。关于推断图片保持尺寸比例的缩放大小,见pad_along_first_dim维持了稳定的patch数。,参考"是从最后一个维度开始向前描述的",pad的填充是从后往前描述的(有点离谱)。建议复用函数下的。siglip2对于padding的坐标直接赋值位置编码0。

2025-05-29 20:19:25 321

原创 siglip2(1) 设置模型返回所需变量

该变量返回到上层后,长度为13,其中第一个元素是输入,剩下是12层的hidden_states。,参考"是从最后一个维度开始向前描述的",pad的填充是从后往前描述的(有点离谱)。pad_along_first_dim维持了稳定的patch数。cd到模型权重目录,修改config.json,设置。修改preprocessor_config.json,设置。siglip2对于padding的坐标直接赋值位置编码0。可看到在for循环内和for循环后,都有调用。关于推断图片保持尺寸比例的缩放大小,见。

2025-05-29 19:26:08 132

原创 from moviepy.editor import VideoFileClip报错ModuleNotFoundError: No module named ‘moviepy.editor‘

参考 https://stackoverflow.com/questions/79284285/modulenotfounderror-while-importing-moviepy-editor。

2025-05-14 17:51:52 541

原创 ModuleNotFoundError: No module named ‘pip._internal.utils.inject_securetransport‘

【代码】ModuleNotFoundError: No module named ‘pip._internal.utils.inject_securetransport‘

2025-04-11 13:04:49 203

原创 mmaction2教程(4) 记一次mmaction2微调复现失败后的检查过程

我在试图复现时,发现训练loss不收敛。官方。

2025-04-02 17:45:12 91

原创 mmaction2教程(2) Q&A

给类加上register装饰器以后,在tarin.py将这个类import。

2025-04-02 17:25:06 111

原创 昇腾torch.multiprocessing.spawn分布式训练使用pytorch迁移

这样每个子进程启动时都能自动迁移NPU。开头添加NPU迁移的操作。假设你的程序程序基于。那么,可以在进程函数。

2025-04-02 09:52:14 108

原创 pip install -e detectron2_repo报错

【代码】pip install -e detectron2_repo报错。

2025-04-01 17:42:23 170

原创 pip install cryptacular卡住,卡在downloading阶段

参数,可以展示安装过程卡在哪一步,比如笔者加上参数后,发现卡在了下载scon这一步(如下日志所示)。于是从本地PC下载whl包后,上传到机器安装。笔者安装pip install cryptacular卡在downloading阶段,但不知道为何。之后再安装cryptacular即可。解决办法是,首先加上。

2025-03-29 17:17:33 433

原创 ImportError: libGL.so.1: cannot open shared object file

【代码】ImportError: libGL.so.1: cannot open shared object file。

2025-03-29 15:59:30 489

原创 mmaction2的mmcv依赖安装教程

如所说,mmcv与其它mm家族的兼容情况十分逆天。

2025-03-28 11:52:06 201

原创 内网anaconda如何使用代理,避免网络连接失败?

其中channels可以替换成其它源,比如清华源、阿里源。

2025-03-10 19:25:07 341

原创 位置编码(三.2) 苏剑林讲旋转位置编码 推导解析

书接上文关于原文的如下内容,对于第二个等号的两边,有三种方式验证:

2025-03-07 16:39:19 178

原创 高数往事(1.3) 推导柯西不等式的向量形式

参考,

2025-03-04 15:05:39 232

原创 高数往事(1.2) 二维、高维空间下余弦定理、点乘公式的证明与相互推导

参考《线性代数 原书第七版 中文 利昂著》第211页。证明余弦定理需要使用向量点乘公式。

2025-03-04 14:55:00 153

原创 位置编码(三.1) 苏剑林讲旋转位置编码 数学基础

假设你已经了解RoPE的公式,本文将着重RoPE的求解过程。之前,苏剑林对RoPE给出了数学推导,具体可以看他的博客系列,先阅读。的"其他位置编码","融合式"一节,之后再阅读。

2025-03-03 14:18:22 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除