- 博客(436)
- 收藏
- 关注
原创 RewardDance 阅读报告
这篇论文提出了一种名为的新型视觉生成奖励模型框架,旨在通过一种创新的“生成式奖励”范式,解决奖励模型难以扩展和“奖励黑客”的难题。
2026-01-21 17:15:05
27
原创 扩散模型+RL(1.5)reward function调研
在强化学习(Reinforcement Learning)框架下,(奖励函数)是指导智能体学习期望行为的核心信号。在生成模型对齐领域,设计或训练一个能够准确反映人类偏好的奖励函数,是实现的关键步骤。: 模型学会最大化代理奖励信号而非真正满足人类偏好的现象。表现形式生成质量下降但奖励分数上升模式坍塌虚假相关性利用。
2026-01-21 16:24:45
30
原创 HPSv2 论文阅读报告
统计项数值人类偏好选择总数798,090图像对总数433,760Prompt 总数107,515标注员数量57 人 (50 标注员 + 7 质检员)数据结构2张图像 + 1个prompt + 1个二元选择标签两张图像由不同模型使用相同prompt生成标注员选择更符合人类偏好的图像。
2026-01-21 15:43:59
73
原创 扩散模型+RL(1.3)reward function调研
任务对齐性:Reward 是否准确反映目标任务(文本对齐、美学、安全性等)泛化能力:在未见数据上的表现可微分性:是否支持梯度反向传播计算效率:推理和训练成本抗过拟合:防止 reward hacking。
2026-01-21 10:34:28
526
原创 扩散模型+RL(1.2) style 奖励函数reward function
方法类别核心技术数据需求代表工作人类偏好学习Bradley-Terry模型,pairwise ranking人类标注偏好对CLIP对比学习风格embedding聚类,距离度量无标注或少量标签直接偏好优化隐式reward,偏好对优化偏好图像对策略梯度RLPolicy gradient + KL正则Reward模型输出DPOK, DI++多目标RewardMoE,维度解耦多维度标注ArmoRM无配对数据文本扰动,prompt偏好仅需captionTPO。
2026-01-20 21:38:19
51
原创 comfyUI mac系统 只显示背景板 找不到侧边栏或顶部栏
如果你的视角里看不到顶部栏,可以把鼠标移到顶上的黑色条,然后鼠标放在那里,向右滑动。
2026-01-06 21:52:49
193
原创 cursor Failed to list containers. Likely because Docker is not running.SyntaxError: Unexpected token
cursor在remote server上,尝试连接remote容器报错。
2026-01-06 16:45:53
239
原创 Euler Ancestral Discrete scheduler与普通 Euler 方法的区别
普通 Euler:确定性路径↑ ↑多走一点 加回随机噪声Euler Ancestral 在每步把目标噪声σt−1σt−1分解为σdown2σup2σdown2σup2,先去噪到σdownσdown,再加σupσup的新噪声,保证噪声水平正确的同时引入随机性。这样解释清楚了吗?
2026-01-04 17:28:17
60
原创 mmcv的依赖安装教程
mmcv自从从2.x以后去除了mmcv-full,如果要安装mmcv-full,只能安装mmcv-full==1.7.x。,可以看到cuda版本最高支持到12.1,torch版本最高支持到2.4.x。
2025-12-26 09:58:13
141
原创 使用deepghs/imgutils检测动漫图片中的脸部数量
使用如下代码样例可以检测一张图片中的有几个脸部。同样也有面部检测模型权重,以及detect_faces函数。
2025-12-04 20:08:29
242
原创 trackio替代wandb计划
安装trackio,尽量安装新版,新的版本对wandb的兼容性更好。在训练py文件改一样然后启动训练脚本,修复些许bug,直到程序能够启动并上报数据。
2025-10-27 17:00:53
97
原创 diffusion model(0.4.2) 为什么$\nabla_x \log p(x)$指向概率密度更高的区域?
在各种score-based的diffusion model论文中,score function的公式如下,其含义是指向对数概率密度更高的区域。但是,为什么它是这个含义呢?为什么它就不会指向概率密度更低的区域呢?
2025-10-21 21:40:21
59
原创 diffusion model(0.4.2) score-SDE 关于score function与noise的关系
其声称该结论来自论文《score-SDE》,我们找到相关段落如下。其在介绍DDPM论文时,是沿着score function的视角在叙述。因此,本文需要沿着该线索进一步分析,找到公式的推理过程。在论文《Diffusion Models Beat GANs on Image Synthesis》中,提到score function和noise之间存在对应关系。
2025-10-14 21:20:20
77
原创 diffusion model(0.4.3) SDE的概率密度函数的均值与方差求解
原书对应视频教学youtube链接ito lemma给出了伊藤引理的一维版本。先读原书的公式5.10至5.13。然后再看"5.5 Means and Covariances of SDEs"一节的公式(5.47)至(5.51)。在论文《SCORE-BASED GENERATIVE MODELING THOUGH SDE》论文中,作者为了推导VP-SDE对应概率密度函数的均值和方差。
2025-09-24 22:54:02
82
原创 diffusion model(0.4) score-based generative modeling through SDE
https://littlenyima.github.io/posts/16-score-based-generative-models/index.html
2025-09-15 15:58:03
129
原创 diffusion model(0.3) score-matching,Sliced SM,NCSN,DSM
https://arxiv.org/pdf/1907.05600score matchin langevin dynamic
2025-09-15 15:11:54
96
原创 CIDEr指标
的左半边,计算这个n-gram在全句中的频率,值越大,说明在这个句子中,这个n-gram出现得更频繁,也就更重要。公式的右半边,分母计算的是这个n-gram在多少图片的caption中出现过,分母越大,说明这个n-gram在越多的caption中出现,说明它越不”稀奇",右半边取值越低。综合来看,这个公式的含义其实就是在计算TF-IDF,只是原本的计算对象是单词,在上下文计算对象是n-gram。的TF-IDF向量余弦相似度,我们可以评估两个句子中n-gram使用次数的相似度。建议读原论文,笔记只是辅助。
2025-09-10 09:45:23
351
原创 diffusion model(0.2) DDPM
这里的公式来自原生diffusion model论文的Table App.1,它和下文的reverse diffusion kernel一样。由于KL散度都是高斯分布之间的比较,所以可以通过Rao-Blackwellized的方式来计算,而不需要用高方差的蒙特卡洛估计。都是由被训练的神经网络预测的。加了个负号,它跟原生diffusion论文里的公式10第一行是一样的,实际上下图第一行可以看做是。公式2的左边是马尔可夫链的假设,右边也来自原生diffusion论文的Table App.1。
2025-09-09 19:08:50
75
原创 《Bishop PRML》10.1.2 Properties of factorized approximations(2) alpha散度 KL距离 海林格距离
alpha散度的一般形式。另一个等效的一般形式,参考参考。
2025-09-09 12:40:40
59
原创 comfyUI 暴露网络restful http接口
https://zhuanlan.zhihu.com/p/686893291 暴露websocket接口。
2025-09-08 21:52:13
274
原创 《Bishop PRML》10.1变分推断 (3) 理解VAE reconstruction loss
参考有人提到,“On page 5 of the VAE paper, it’s clearly stated…”,当我们假设px∣z是高斯分布的时候,将高斯分布的pdf方程带入到ELBO的第一项,就会得到相似MSE的项。而当假设是伯努利分布时,带入到ELBO的第一项,能得到相似CE loss的项。
2025-08-31 18:07:44
74
原创 《Bishop PRML》10.1 变分推断(2) 理解VAE KL loss
代码通过 mu.pow(2)、 logvar.exp()、 -logvar 和 -1 实现了这一公式,并通过 sum(dim=1) 对潜在维度求和,计算每个样本的KL散度。虽然重参数化(self.reparameterize(mu, logvar, nsamples))不直接出现在KL损失的计算中,但它是VAE的关键步骤,用于从。以下是对代码中KL损失计算的数学推导,结合代码中的实现逐步讲解。sum(dim=1):对每个样本的潜在维度求和,得到每个样本的KL散度。是KL散度,衡量变分分布与先验分布的差异。
2025-08-31 14:13:59
96
原创 信息熵 交叉熵 条件熵
信息熵∑xpxlogpx1−∑plogpx视为对概率分布px编码信息所需的最小平均编码数。logpx1表达了编码该信息所用的比特数。交叉熵∑xpxlogqx1表达了基于预测分布qx的编码策略,在真实分布px下编码信息所需的最小平均编码数。因此,KL(q||p)=交叉熵-信息熵,也就是说,使用qx的策略,在编码信息时的最小平均编码数,会多于使用真实分布px的策略。
2025-08-31 02:05:56
79
原创 《Bishop PRML》10.1. 变分推断(1)理解VAE
VAE的解码过程是从概率分布的一个采样。生成图片时,首先基从随机分布采样隐向量。如何理解变分推断公式中,Z和X的含义是什么?,然后利用解码器将其恢复成图片。AE的编码和解码是确定性的。
2025-08-30 13:55:20
78
原创 变分推断(1.1) 证明最大熵分布就是高斯分布
本文推理前半段参考。当给定均值为μ,方差为σ2后,在所有的概率分布中,哪一个分布能够使得熵H最大?首先,熵的公式定义如下:为此,我们需要找到一个函数p(x),使得以下泛函公式取得最大值。并受到以下三个约束条件。归一化约束,概率密度和为1,均值约束,方差约束,当我们求泛函极值时,始终要受到以上三个约束。因此,我们结合三个约束,列出拉格朗日公式,其中拉格朗日乘数分别为λ1λ2λ3。求泛函L对函数p的偏导,并使之等于0,
2025-08-24 15:05:57
70
原创 diffusion model(1.4) 相关论文阅读清单
《Denoising Diffusion Probabilistic Models》DDPM论文。
2025-08-18 16:06:36
161
1
原创 《Bishop PRML》10.1.1 Factorized distributions
https://stats.stackexchange.com/questions/4417/what-are-the-factors-that-cause-the-posterior-distributions-to-be-intractable
2025-08-15 12:08:52
134
原创 城市异常检测(2) VadClip
ucf_test.py,论文指标AUC=88.02,对应AUC1。xd_test.py,论文指标AP=84.51,对应AP2。
2025-07-31 15:23:55
91
原创 diffusion model(0.1) 原生diffusion model
极大似然估计(MLE)是一种通过最大化样本数据集的对数似然函数来估计模型参数θ的方法,其本质是让模型分布Pθ尽可能接近真实数据分布。相关资源指出,这一过程与最小化KL散度等价,因为KL散度可分解为交叉熵与信息熵之差(H(A,B)=DKL(A∥B)+SA)。扩散模型等应用中,MLE通过参数优化实现对真实概率分布的逼近。
2025-07-30 02:03:18
171
原创 aigc(1.1) opensora-2.0
下图来自论文,可见VAE是一个因果注意力的3D结构。在配图左侧,视频会被编码为video token序列,而在配图右侧,去噪的video token会被解码为视频。论文图6是hunyuan VAE的结构,可见视频序列在编码过程中,时空上的尺寸会减小,从而减少了序列长度。open sora2.0的VAE模块来自HunyuanVideo,
2025-07-28 17:15:50
123
原创 分类器的衡量指标 PR曲线(precision recall) ROC曲线(TPR FPR)
ROC 曲线和 PR 曲线都是用在二分类中,且涉及到下图的几个概念 (摘自 The Relationship Between Precision-Recall and ROC Curves)上面四个指标用大白话解释如下Recall:查全率,正样本中被预测出来是正的比例 (越大越好)Precision:查准率,预测的正样本中被正确预测的比例 (越大越好)True Positive Rate:跟 Recall 定义一样 (越大越好)FPR : 负样本中被预测为正的比例 (越小越好)
2025-07-28 16:27:16
197
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅