- 博客(466)
- 收藏
- 关注
原创 Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)
转载:Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)-CSDN博客笔记|扩散模型(一三)DiT|Diffusion with Transformer | 極東晝寢愛好家
2025-11-22 22:42:38
199
原创 Flow Matching|什么是“预测速度场 vt=ε−x”?
vtv_tvt输出速度场:是本文采用的技术的核心,模型学习的是一个从噪声指向干净数据的方向向量,这被认为比传统“预测噪声”的目标更高效。强调ODE采样:是为了突出其生成过程的确定性和高效性,可以使用更少的步骤快速生成高质量图片,这是该方法实用化的关键。
2025-11-09 22:01:02
568
原创 SDXL的time_ids (add_time_ids)
这些额外参数让 SDXL 能够:✅ 利用双文本编码器的互补信息✅ 根据指定的图像尺寸进行优化生成✅ 保持生成图像的构图一致性✅ 处理不同长宽比的图像生成这就是为什么在 SDXL 中需要构造- 它提供了比原始 SD 更丰富的条件控制信息。
2025-10-27 13:44:22
227
原创 github中获得Personal Access Token
访问 GitHub → Settings → Developer settings → Personal access tokens → Tokens (classic)点击 "Generate new token" → "Generate new token (classic)"设置权限(至少需要 repo 权限)生成并复制token。
2025-10-26 20:02:32
279
原创 Text Inversion与DreamBooth的异同
你感觉两者“差不多”,是因为它们目标一致、输入输出形式相似,都属于“小样本个性化图像生成”这一新兴方向。但它们的实现路径完全不同像是“在字典里加一个新词”,不改变语言本身;DreamBooth像是“教模型学会一个新概念”,改变了模型的理解方式。因此,虽然表面上看起来都是在“教模型认识一个新东西”,但一个是在词嵌入空间中做 inversion,一个是在模型参数空间中做 fine-tuning,这是根本区别。
2025-10-07 10:39:54
350
原创 https://duoke360.com/post/35063
转载:PyTorch通过torch.topk推导梯度 - 多课网,360度全方位IT技术服务站!
2025-10-02 18:11:08
266
原创 Stable Diffusion里面Cross-Attention设计:为啥Q来自图像/噪声,K和V来自文本
主动查询:图像生成过程主动地、动态地从文本条件中获取它需要的信息。在每一步去噪中,模型都会根据当前图像的“困惑”去寻求文本的“指导”。空间对齐:这种机制天然地建立了文本概念和图像空间区域之间的对应关系。通过可视化注意力图,我们可以看到在生成过程中,“狗”这个词会主要激活图像中狗所在区域的像素。这是实现精准构图的关键。条件控制的稳定性:文本条件(K, V)在整个去噪过程中是固定不变的。这提供了一个稳定的“目标”或“蓝图”,让噪声(Q)可以一步步地、坚定地向其靠近,保证了生成内容与文本提示的一致性。灵活性。
2025-10-01 23:08:31
902
原创 Stable Diffusion的U-Net中,交叉注意力机制的QKV
正确的说法应该是:Q来自图像/噪声,K和V来自文本。这种设计使得模型能够在去噪过程中,根据文本指导来有选择地关注图像的不同区域。· K 和 V 来自文本嵌入(通过文本编码器如CLIP Text Encoder得到)· Q 来自图像 latent(由U-Net处理的噪声潜变量)· Q = W_Q \cdot \text{图像特征}· K = W_K \cdot \text{文本嵌入}· V = W_V \cdot \text{文本嵌入}这个说法是不完全正确的,它混淆了Q、K、V的来源。
2025-10-01 19:31:17
466
原创 指数移动平均(Exponential Moving Average, EMA)的作用
EMA是一种有效的正则化技术,通过维护权重的移动平均来提高模型性能。在你的代码中,它默认启用(),衰减率为0.99996,通常会使最终模型获得1-2%的精度提升。
2025-09-27 16:41:49
395
原创 Textual Inversion引入新的可学习的Token
Textual Inversion 没有改变 CLIP 的词表大小,而是通过。来实现新概念的学习。这是一种"语义重映射"而非"词表扩展"
2025-09-24 16:21:14
135
原创 LLM中如何添加special_token,并且尽可能保持原模型的训练效果
在SFT(Supervised Fine-Tuning)阶段为LLM添加special_token(例如用于分隔用户和助手的。等)是一个非常常见的操作,但如果处理不当,确实会严重影响模型原有的性能。
2025-09-19 20:05:31
252
转载 Dissecting VAR (一):从VQ到Multi-Scale RQ
前两天VAR拿到了NeurIPS 2024最佳论文,之前刚放到arXiv上的时候只是简单刷了一下,加了个github star,不过这两天细细读过之后才品出味道来。这个短系列将详细梳理VAR的细节与其关键技术,并展望一些拓展的可能性。本文首先介绍VQ相关。
2025-08-29 10:15:44
76
原创 AR模型的text encoder和 image encoder分别是什么?
组件传统扩散模型 (如Stable Diffusion)Visual AutoRegressive (VAR) 模型独立的CLIP Text Encoder或T5分词器 + 嵌入层,是模型前端的一部分独立的,用于预处理图像为token核心 backboneUNet(去噪扩散模型)单一的Transformer(自回归模型)工作流文本编码 → 引导UNet在潜空间去噪 → VAE解码文本分词 → 与图像token拼接 → Transformer自回归生成图像token → VQ解码输出表示。
2025-08-26 15:57:18
784
原创 自回归(Auto-Regressive, AR),自回归图像生成过程
使用一个自回归 Transformer 模型,根据文本嵌入 \( c \) 和已生成的前缀图像 token 序列 \( x_{1 \sim t-1} \),预测下一个图像 token \( x_t \)。其中 \( l_t \) 是基于完整文本的 logits,\( l_t' \) 是无条件(或无文本)的 logits,\( s \) 是引导强度。自回归模型的训练目标是**最大化图像 token 序列的条件似然**,即最小化**交叉熵损失(Cross-Entropy Loss)**。
2025-08-24 15:04:49
441
原创 论文阅读DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
Class-Specific Prior Preservation Loss 是一个巧妙的。
2025-08-24 12:09:53
832
原创 Prompt-to-Prompt| 修改Attention会有“反向传播”或梯度计算?
需要缓存注意力矩阵(attention maps)的中间结果。可能需要对注意力层进行多次反向传播或梯度计算(即使只是推理)。如果同时编辑多个词符(tokens),显存需求会指数级增长。:常规SDXL推理只需单向计算,无需保存中间变量。
2025-07-30 02:19:13
254
原创 Null-text Inversion for Editing Real Images using Guided Diffusion Models
【代码】Null-text Inversion for Editing Real Images using Guided Diffusion Models。
2025-06-12 23:38:07
793
原创 SDXL 和 SDXL-Turbo 的区别
SDXL-Turbo 是 SDXL 的蒸馏版本,latent space 结构基本一致,只是优化了推理路径。:SDXL-Turbo 的 latent 动态范围较小,训练 SAE/LoRA 可能不如 SDXL 稳定。:SDXL 的多步去噪能更好地捕捉语义方向,而 SDXL-Turbo 的快速推理可能丢失一些细节。(比如 SDXL 用 λ=2,SDXL-Turbo 用 λ=1)。,因为 SDXL 适合训练,SDXL-Turbo 适合推理。,但可能需要调整强度(λ)。,直接训练可能不稳定。,但可能需要调整 λ。
2025-06-11 11:26:49
958
原创 为什么 SDXL 用两个文本编码器?
如果需要进一步分析 SDXL 的文本编码机制,可以具体说明你的应用场景(例如特征提取、prompt 分析等)。OpenCLIP ViT-bigG 在 LAION-2B 上训练,擅长复杂语义。部分 SDXL 的微调模型(如 DreamBooth)可能仅使用其中一个编码器。OpenCLIP ViT-bigG 的层索引是 0-31(共 32 层)。CLIP ViT-L 的层索引是 0-11(共 12 层)。CLIP ViT-L 保持与 SD 1.x 的兼容性。在计算注意力或特征时,需明确指定是哪个编码器的输出。
2025-06-05 17:17:04
371
原创 Linux 脚本文件编辑(vim)
文件只是一个配置文件,Git 会在每次运行时读取它的内容。修改配置文件后,不需要重新编译 Git 或任何相关程序。文件是 Bash Shell 的配置文件,用于定义用户登录时的环境变量、别名、函数等设置。文件后,通常需要重新加载它,以使更改生效。3.检查网络配置或dl设置。
2025-06-02 22:28:13
740
原创 稀疏自编码器(SAE)为什么要稀疏?
SAE的稀疏性是其核心设计,通过约束特征激活的稀疏性,学习到可解释的、解耦的语义特征。在概念擦除任务中,这些特征被用于定位和操作特定概念(如“名人”“裸露”),而无需调整模型参数,实现了高效、精准的干预。其学习过程本质上是为输入数据构建一个稀疏的、语义明确的特征空间。F%5Etar。
2025-05-28 17:44:49
455
原创 重构损失(Reconstruction Loss) L mse 和 余弦相似性损失(Cosine Similarity Loss) L cos
衡量输入 x 和重构输出 x^ 之间的均方误差(MSE)。
2025-05-26 09:53:07
1552
原创 稀疏自编码器(Sparse Autoencoder,SAE)
在稀疏自编码器(Sparse Autoencoder,SAE)中,是一个重要的参数,用于定义编码器隐藏层的维度相对于输入维度的扩展程度。具体来说,它表示编码层的维度是输入维度的多少倍。例如,如果输入维度是,扩张因子是,那么编码层的维度。
2025-05-22 13:51:07
631
原创 论文阅读Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
交叉注意力(CA)对齐约束的目标是确保图像中的编辑部分与文本描述保持一致。通过计算目标图像与源图像之间的交叉注意力图差异,并最小化这种差异,优化过程能引导目标图像的潜变量,使其在指定区域内与文本提示对齐,从而实现准确的图像编辑。通过最大化编辑区域和非编辑区域的注意力(attention)差异来优化潜变量(ztz_tzt),这种反向指导编辑部分的思想在图像生成和编辑领域非常常见,尤其是在使用注意力机制和扩散模型的任务中。具体来说,这种方法属于引导生成过程。
2025-05-17 23:08:28
913
1
原创 “DiT和Flux”与“Stable Diffusion”两种不同的生成模型范式
Transformer通过旋转位置编码(RoPE)对位置信息进行编码,并应用多模态注意力机制(MMA),避免了数据压缩和放大过程中的丢失。:利用Transformer处理离散化的潜在表示,包括图像令牌和文本令牌,通过旋转位置编码对位置信息进行编码,然后应用多模态注意力机制进行去噪。:通过逐步添加噪声到初始输入信息中,模拟信息的扩散过程,再通过多次迭代逐渐去除噪声,最终得到清晰、准确的生成结果。:在细节处理和连贯性上表现更优,生成的图像质量更高,且在提示词遵循能力上更强。
2025-05-15 13:03:12
785
原创 人脸属性编辑的评估指标 Towards Scalable Human-aligned Benchmark for Text-guided Image Editing
计算该区域与目标属性文本(如“smiling face”)的CLIP相似度(σclip,aOFσclip,aOF)。例如,“Make her smile”属于“动作”属性,但更复杂的编辑(如“改变发型”)可能缺乏标注支持。仅支持GQA标注的4类属性(颜色、状态、材质、动作),而人脸相关属性(如表情、年龄、发型)未被明确涵盖。但受限于数据标注,复杂人脸编辑(如年龄、发型)的评估仍需进一步扩展。衡量编辑后的人脸是否匹配目标属性(如“微笑”)。(如分割人脸子区域)来改进(但未在本文中实现)。
2025-05-15 12:53:20
445
竞争性自适应重加权算法(CARS)
2024-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅