duoyasong5907-CSDN博客

原创 RewardDance 阅读报告

这篇论文提出了一种名为的新型视觉生成奖励模型框架，旨在通过一种创新的“生成式奖励”范式，解决奖励模型难以扩展和“奖励黑客”的难题。

2026-01-21 17:15:05 27

原创扩散模型+RL(1.5)reward function调研

在强化学习(Reinforcement Learning)框架下，（奖励函数）是指导智能体学习期望行为的核心信号。在生成模型对齐领域，设计或训练一个能够准确反映人类偏好的奖励函数，是实现的关键步骤。: 模型学会最大化代理奖励信号而非真正满足人类偏好的现象。表现形式生成质量下降但奖励分数上升模式坍塌虚假相关性利用。

2026-01-21 16:24:45 30

原创 HPSv2 论文阅读报告

统计项数值人类偏好选择总数798,090图像对总数433,760Prompt 总数107,515标注员数量57 人 (50 标注员 + 7 质检员)数据结构2张图像 + 1个prompt + 1个二元选择标签两张图像由不同模型使用相同prompt生成标注员选择更符合人类偏好的图像。

2026-01-21 15:43:59 73

原创扩散模型+RL(1.3)reward function调研

任务对齐性：Reward 是否准确反映目标任务（文本对齐、美学、安全性等）泛化能力：在未见数据上的表现可微分性：是否支持梯度反向传播计算效率：推理和训练成本抗过拟合：防止 reward hacking。

2026-01-21 10:34:28 526

原创扩散模型+RL(1.2) style 奖励函数reward function

方法类别核心技术数据需求代表工作人类偏好学习Bradley-Terry模型，pairwise ranking人类标注偏好对CLIP对比学习风格embedding聚类，距离度量无标注或少量标签直接偏好优化隐式reward，偏好对优化偏好图像对策略梯度RLPolicy gradient + KL正则Reward模型输出DPOK, DI++多目标RewardMoE，维度解耦多维度标注ArmoRM无配对数据文本扰动，prompt偏好仅需captionTPO。

2026-01-20 21:38:19 51

原创 comfyUI mac系统只显示背景板找不到侧边栏或顶部栏

如果你的视角里看不到顶部栏，可以把鼠标移到顶上的黑色条，然后鼠标放在那里，向右滑动。

2026-01-06 21:52:49 193

原创 cursor Failed to list containers. Likely because Docker is not running.SyntaxError: Unexpected token

cursor在remote server上，尝试连接remote容器报错。

2026-01-06 16:45:53 239

原创 Euler Ancestral Discrete scheduler与普通 Euler 方法的区别

普通 Euler:确定性路径↑ ↑多走一点加回随机噪声Euler Ancestral 在每步把目标噪声σt−1σt−1分解为σdown2σup2σdown2σup2，先去噪到σdownσdown，再加σupσup的新噪声，保证噪声水平正确的同时引入随机性。这样解释清楚了吗？

2026-01-04 17:28:17 60

原创 mmcv的依赖安装教程

mmcv自从从2.x以后去除了mmcv-full，如果要安装mmcv-full，只能安装mmcv-full==1.7.x。，可以看到cuda版本最高支持到12.1，torch版本最高支持到2.4.x。

2025-12-26 09:58:13 141

原创使用deepghs/imgutils检测动漫图片中的脸部数量

使用如下代码样例可以检测一张图片中的有几个脸部。同样也有面部检测模型权重，以及detect_faces函数。

2025-12-04 20:08:29 242

原创 trackio替代wandb计划

安装trackio，尽量安装新版，新的版本对wandb的兼容性更好。在训练py文件改一样然后启动训练脚本，修复些许bug，直到程序能够启动并上报数据。

2025-10-27 17:00:53 97

原创 wandb server 启动部署(基于volume或本地磁盘)

看到以下日志时，说明服务器已经启动。启动docker容器。

2025-10-27 11:37:54 135

原创 diffusion model(0.4.2) 为什么$\nabla_x \log p(x)$指向概率密度更高的区域？

在各种score-based的diffusion model论文中，score function的公式如下，其含义是指向对数概率密度更高的区域。但是，为什么它是这个含义呢？为什么它就不会指向概率密度更低的区域呢？

2025-10-21 21:40:21 59

原创 diffusion model(0.4.2) score-SDE 关于score function与noise的关系

其声称该结论来自论文《score-SDE》，我们找到相关段落如下。其在介绍DDPM论文时，是沿着score function的视角在叙述。因此，本文需要沿着该线索进一步分析，找到公式的推理过程。在论文《Diffusion Models Beat GANs on Image Synthesis》中，提到score function和noise之间存在对应关系。

2025-10-14 21:20:20 77

原创 wandb webUI 如何批量删除任务

单击侧边栏Runs，批量勾选run，单机Delete，即可批量删除历史。

2025-10-13 20:25:11 206

原创 diffusion model(0.4.3) SDE的概率密度函数的均值与方差求解

原书对应视频教学youtube链接ito lemma给出了伊藤引理的一维版本。先读原书的公式5.10至5.13。然后再看"5.5 Means and Covariances of SDEs"一节的公式(5.47)至(5.51)。在论文《SCORE-BASED GENERATIVE MODELING THOUGH SDE》论文中，作者为了推导VP-SDE对应概率密度函数的均值和方差。

2025-09-24 22:54:02 82

原创 diffusion model(0.2.2) DDIM

公式(3)描述了DDPM的前向传播过程，留意这里的。相当于DDPM论文中的。

2025-09-21 21:52:46 74

原创 diffusion model(0.4) score-based generative modeling through SDE

https://littlenyima.github.io/posts/16-score-based-generative-models/index.html

2025-09-15 15:58:03 129

原创 diffusion model(0.3) score-matching，Sliced SM，NCSN，DSM

https://arxiv.org/pdf/1907.05600score matchin langevin dynamic

2025-09-15 15:11:54 96

原创 CIDEr指标

的左半边，计算这个n-gram在全句中的频率，值越大，说明在这个句子中，这个n-gram出现得更频繁，也就更重要。公式的右半边，分母计算的是这个n-gram在多少图片的caption中出现过，分母越大，说明这个n-gram在越多的caption中出现，说明它越不”稀奇"，右半边取值越低。综合来看，这个公式的含义其实就是在计算TF-IDF，只是原本的计算对象是单词，在上下文计算对象是n-gram。的TF-IDF向量余弦相似度，我们可以评估两个句子中n-gram使用次数的相似度。建议读原论文，笔记只是辅助。

2025-09-10 09:45:23 351

原创 diffusion model(0.2) DDPM

这里的公式来自原生diffusion model论文的Table App.1，它和下文的reverse diffusion kernel一样。由于KL散度都是高斯分布之间的比较，所以可以通过Rao-Blackwellized的方式来计算，而不需要用高方差的蒙特卡洛估计。都是由被训练的神经网络预测的。加了个负号，它跟原生diffusion论文里的公式10第一行是一样的，实际上下图第一行可以看做是。公式2的左边是马尔可夫链的假设，右边也来自原生diffusion论文的Table App.1。

2025-09-09 19:08:50 75

原创《Bishop PRML》10.1.2 Properties of factorized approximations(2) alpha散度 KL距离海林格距离

alpha散度的一般形式。另一个等效的一般形式，参考参考。

2025-09-09 12:40:40 59

原创 comfyUI 暴露网络restful http接口

https://zhuanlan.zhihu.com/p/686893291 暴露websocket接口。

2025-09-08 21:52:13 274

原创协方差矩阵(1) 旋转缩放

的"协方差矩阵的特征分解"

2025-09-08 12:12:40 63

原创《Bishop PRML》10.1变分推断 (3) 理解VAE reconstruction loss

参考有人提到，“On page 5 of the VAE paper, it’s clearly stated…”，当我们假设px∣z是高斯分布的时候，将高斯分布的pdf方程带入到ELBO的第一项，就会得到相似MSE的项。而当假设是伯努利分布时，带入到ELBO的第一项，能得到相似CE loss的项。

2025-08-31 18:07:44 74

原创《Bishop PRML》10.1 变分推断(2) 理解VAE KL loss

代码通过 mu.pow(2)、 logvar.exp()、 -logvar 和 -1 实现了这一公式，并通过 sum(dim=1) 对潜在维度求和，计算每个样本的KL散度。虽然重参数化（self.reparameterize(mu, logvar, nsamples)）不直接出现在KL损失的计算中，但它是VAE的关键步骤，用于从。以下是对代码中KL损失计算的数学推导，结合代码中的实现逐步讲解。sum(dim=1)：对每个样本的潜在维度求和，得到每个样本的KL散度。是KL散度，衡量变分分布与先验分布的差异。

2025-08-31 14:13:59 96

空空如也

空空如也