自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(436)
  • 收藏
  • 关注

原创 lc题集解答

lc解答

2021-01-30 11:06:39 488 1

原创 SD1.5的负面提示词embedding

2026-02-05 20:04:03 60

原创 RewardDance 阅读报告

这篇论文提出了一种名为的新型视觉生成奖励模型框架,旨在通过一种创新的“生成式奖励”范式,解决奖励模型难以扩展和“奖励黑客”的难题。

2026-01-21 17:15:05 27

原创 扩散模型+RL(1.5)reward function调研

在强化学习(Reinforcement Learning)框架下,(奖励函数)是指导智能体学习期望行为的核心信号。在生成模型对齐领域,设计或训练一个能够准确反映人类偏好的奖励函数,是实现的关键步骤。: 模型学会最大化代理奖励信号而非真正满足人类偏好的现象。表现形式生成质量下降但奖励分数上升模式坍塌虚假相关性利用。

2026-01-21 16:24:45 30

原创 HPSv2 论文阅读报告

统计项数值人类偏好选择总数798,090图像对总数433,760Prompt 总数107,515标注员数量57 人 (50 标注员 + 7 质检员)数据结构2张图像 + 1个prompt + 1个二元选择标签两张图像由不同模型使用相同prompt生成标注员选择更符合人类偏好的图像。

2026-01-21 15:43:59 73

原创 HPSv3

论文使用。

2026-01-21 14:38:40 30

原创 扩散模型+RL(1.3)reward function调研

任务对齐性:Reward 是否准确反映目标任务(文本对齐、美学、安全性等)泛化能力:在未见数据上的表现可微分性:是否支持梯度反向传播计算效率:推理和训练成本抗过拟合:防止 reward hacking。

2026-01-21 10:34:28 526

原创 扩散模型+RL(1.2) style 奖励函数reward function

方法类别核心技术数据需求代表工作人类偏好学习Bradley-Terry模型,pairwise ranking人类标注偏好对CLIP对比学习风格embedding聚类,距离度量无标注或少量标签直接偏好优化隐式reward,偏好对优化偏好图像对策略梯度RLPolicy gradient + KL正则Reward模型输出DPOK, DI++多目标RewardMoE,维度解耦多维度标注ArmoRM无配对数据文本扰动,prompt偏好仅需captionTPO。

2026-01-20 21:38:19 51

原创 comfyUI mac系统 只显示背景板 找不到侧边栏或顶部栏

如果你的视角里看不到顶部栏,可以把鼠标移到顶上的黑色条,然后鼠标放在那里,向右滑动。

2026-01-06 21:52:49 193

原创 cursor Failed to list containers. Likely because Docker is not running.SyntaxError: Unexpected token

cursor在remote server上,尝试连接remote容器报错。

2026-01-06 16:45:53 239

原创 Euler Ancestral Discrete scheduler与普通 Euler 方法的区别

普通 Euler:确定性路径↑ ↑多走一点 加回随机噪声Euler Ancestral 在每步把目标噪声σt−1σt−1​分解为σdown2σup2σdown2​σup2​​,先去噪到σdownσdown​,再加σupσup​的新噪声,保证噪声水平正确的同时引入随机性。这样解释清楚了吗?

2026-01-04 17:28:17 60

原创 mmcv的依赖安装教程

mmcv自从从2.x以后去除了mmcv-full,如果要安装mmcv-full,只能安装mmcv-full==1.7.x。,可以看到cuda版本最高支持到12.1,torch版本最高支持到2.4.x。

2025-12-26 09:58:13 141

原创 使用deepghs/imgutils检测动漫图片中的脸部数量

使用如下代码样例可以检测一张图片中的有几个脸部。同样也有面部检测模型权重,以及detect_faces函数。

2025-12-04 20:08:29 242

原创 trackio替代wandb计划

安装trackio,尽量安装新版,新的版本对wandb的兼容性更好。在训练py文件改一样然后启动训练脚本,修复些许bug,直到程序能够启动并上报数据。

2025-10-27 17:00:53 97

原创 wandb server 启动部署(基于volume或本地磁盘)

看到以下日志时,说明服务器已经启动。启动docker容器。

2025-10-27 11:37:54 135

原创 diffusion model(0.4.2) 为什么$\nabla_x \log p(x)$指向概率密度更高的区域?

在各种score-based的diffusion model论文中,score function的公式如下,其含义是指向对数概率密度更高的区域。但是,为什么它是这个含义呢?为什么它就不会指向概率密度更低的区域呢?

2025-10-21 21:40:21 59

原创 diffusion model(0.4.2) score-SDE 关于score function与noise的关系

其声称该结论来自论文《score-SDE》,我们找到相关段落如下。其在介绍DDPM论文时,是沿着score function的视角在叙述。因此,本文需要沿着该线索进一步分析,找到公式的推理过程。在论文《Diffusion Models Beat GANs on Image Synthesis》中,提到score function和noise之间存在对应关系。

2025-10-14 21:20:20 77

原创 wandb webUI 如何批量删除任务

单击侧边栏Runs,批量勾选run,单机Delete,即可批量删除历史。

2025-10-13 20:25:11 206

原创 diffusion model(0.4.3) SDE的概率密度函数的均值与方差求解

原书对应视频教学youtube链接ito lemma给出了伊藤引理的一维版本。先读原书的公式5.10至5.13。然后再看"5.5 Means and Covariances of SDEs"一节的公式(5.47)至(5.51)。在论文《SCORE-BASED GENERATIVE MODELING THOUGH SDE》论文中,作者为了推导VP-SDE对应概率密度函数的均值和方差。

2025-09-24 22:54:02 82

原创 diffusion model(0.2.2) DDIM

公式(3)描述了DDPM的前向传播过程,留意这里的。相当于DDPM论文中的。

2025-09-21 21:52:46 74

原创 diffusion model(0.4) score-based generative modeling through SDE

https://littlenyima.github.io/posts/16-score-based-generative-models/index.html

2025-09-15 15:58:03 129

原创 diffusion model(0.3) score-matching,Sliced SM,NCSN,DSM

https://arxiv.org/pdf/1907.05600score matchin langevin dynamic

2025-09-15 15:11:54 96

原创 CIDEr指标

的左半边,计算这个n-gram在全句中的频率,值越大,说明在这个句子中,这个n-gram出现得更频繁,也就更重要。公式的右半边,分母计算的是这个n-gram在多少图片的caption中出现过,分母越大,说明这个n-gram在越多的caption中出现,说明它越不”稀奇",右半边取值越低。综合来看,这个公式的含义其实就是在计算TF-IDF,只是原本的计算对象是单词,在上下文计算对象是n-gram。的TF-IDF向量余弦相似度,我们可以评估两个句子中n-gram使用次数的相似度。建议读原论文,笔记只是辅助。

2025-09-10 09:45:23 351

原创 diffusion model(0.2) DDPM

这里的公式来自原生diffusion model论文的Table App.1,它和下文的reverse diffusion kernel一样。由于KL散度都是高斯分布之间的比较,所以可以通过Rao-Blackwellized的方式来计算,而不需要用高方差的蒙特卡洛估计。都是由被训练的神经网络预测的。加了个负号,它跟原生diffusion论文里的公式10第一行是一样的,实际上下图第一行可以看做是。公式2的左边是马尔可夫链的假设,右边也来自原生diffusion论文的Table App.1。

2025-09-09 19:08:50 75

原创 《Bishop PRML》10.1.2 Properties of factorized approximations(2) alpha散度 KL距离 海林格距离

alpha散度的一般形式。另一个等效的一般形式,参考参考。

2025-09-09 12:40:40 59

原创 comfyUI 暴露网络restful http接口

https://zhuanlan.zhihu.com/p/686893291 暴露websocket接口。

2025-09-08 21:52:13 274

原创 协方差矩阵(1) 旋转缩放

的"协方差矩阵的特征分解"

2025-09-08 12:12:40 63

原创 《Bishop PRML》10.1变分推断 (3) 理解VAE reconstruction loss

参考有人提到,“On page 5 of the VAE paper, it’s clearly stated…”,当我们假设px∣z是高斯分布的时候,将高斯分布的pdf方程带入到ELBO的第一项,就会得到相似MSE的项。而当假设是伯努利分布时,带入到ELBO的第一项,能得到相似CE loss的项。

2025-08-31 18:07:44 74

原创 《Bishop PRML》10.1 变分推断(2) 理解VAE KL loss

代码通过 mu.pow(2)、 logvar.exp()、 -logvar 和 -1 实现了这一公式,并通过 sum(dim=1) 对潜在维度求和,计算每个样本的KL散度。虽然重参数化(self.reparameterize(mu, logvar, nsamples))不直接出现在KL损失的计算中,但它是VAE的关键步骤,用于从。以下是对代码中KL损失计算的数学推导,结合代码中的实现逐步讲解。sum(dim=1):对每个样本的潜在维度求和,得到每个样本的KL散度。是KL散度,衡量变分分布与先验分布的差异。

2025-08-31 14:13:59 96

原创 信息熵 交叉熵 条件熵

信息熵∑x​pxlogpx1​−∑plogpx视为对概率分布px编码信息所需的最小平均编码数。logpx1​表达了编码该信息所用的比特数。交叉熵∑x​pxlogqx1​表达了基于预测分布qx的编码策略,在真实分布px下编码信息所需的最小平均编码数。因此,KL(q||p)=交叉熵-信息熵,也就是说,使用qx的策略,在编码信息时的最小平均编码数,会多于使用真实分布px的策略。

2025-08-31 02:05:56 79

原创 《Bishop PRML》10.1. 变分推断(1)理解VAE

VAE的解码过程是从概率分布的一个采样。生成图片时,首先基从随机分布采样隐向量。如何理解变分推断公式中,Z和X的含义是什么?,然后利用解码器将其恢复成图片。AE的编码和解码是确定性的。

2025-08-30 13:55:20 78

原创 《Bishop PRML》10.1.2 Properties of factorized approximations

因子化分解。

2025-08-27 14:09:35 49

原创 变分推断(1.1) 证明最大熵分布就是高斯分布

本文推理前半段参考。当给定均值为μ,方差为σ2后,在所有的概率分布中,哪一个分布能够使得熵H最大?首先,熵的公式定义如下:为此,我们需要找到一个函数p(x),使得以下泛函公式取得最大值。并受到以下三个约束条件。归一化约束,概率密度和为1,均值约束,方差约束,当我们求泛函极值时,始终要受到以上三个约束。因此,我们结合三个约束,列出拉格朗日公式,其中拉格朗日乘数分别为λ1​λ2​λ3​。求泛函L对函数p的偏导,并使之等于0,

2025-08-24 15:05:57 70

原创 《Bishop PRML》Appendix D

可阅读:

2025-08-23 22:28:30 306

原创 diffusion model(1.4) 相关论文阅读清单

《Denoising Diffusion Probabilistic Models》DDPM论文。

2025-08-18 16:06:36 161 1

原创 《Bishop PRML》10.1.1 Factorized distributions

https://stats.stackexchange.com/questions/4417/what-are-the-factors-that-cause-the-posterior-distributions-to-be-intractable

2025-08-15 12:08:52 134

原创 城市异常检测(2) VadClip

ucf_test.py,论文指标AUC=88.02,对应AUC1。xd_test.py,论文指标AP=84.51,对应AP2。

2025-07-31 15:23:55 91

原创 diffusion model(0.1) 原生diffusion model

极大似然估计(MLE)是一种通过最大化样本数据集的对数似然函数来估计模型参数θ的方法,其本质是让模型分布Pθ尽可能接近真实数据分布。相关资源指出,这一过程与最小化KL散度等价,因为KL散度可分解为交叉熵与信息熵之差(H(A,B)=DKL(A∥B)+SA)。扩散模型等应用中,MLE通过参数优化实现对真实概率分布的逼近。

2025-07-30 02:03:18 171

原创 aigc(1.1) opensora-2.0

下图来自论文,可见VAE是一个因果注意力的3D结构。在配图左侧,视频会被编码为video token序列,而在配图右侧,去噪的video token会被解码为视频。论文图6是hunyuan VAE的结构,可见视频序列在编码过程中,时空上的尺寸会减小,从而减少了序列长度。open sora2.0的VAE模块来自HunyuanVideo,

2025-07-28 17:15:50 123

原创 分类器的衡量指标 PR曲线(precision recall) ROC曲线(TPR FPR)

ROC 曲线和 PR 曲线都是用在二分类中,且涉及到下图的几个概念 (摘自 The Relationship Between Precision-Recall and ROC Curves)上面四个指标用大白话解释如下Recall:查全率,正样本中被预测出来是正的比例 (越大越好)Precision:查准率,预测的正样本中被正确预测的比例 (越大越好)True Positive Rate:跟 Recall 定义一样 (越大越好)FPR : 负样本中被预测为正的比例 (越小越好)

2025-07-28 16:27:16 197

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除