自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(466)
  • 收藏
  • 关注

原创 LORA|Omini-Kontext的配置

Omini-kontext的Lora配置太庞大了。

2025-12-15 22:24:14 96

原创 oneDrive大文件下载获取url

转载:直链下载或者Linux下载Onedrive大文件_onedrive直链-CSDN博客

2025-12-05 11:14:33 487 1

原创 Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)

转载:Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)-CSDN博客笔记|扩散模型(一三)DiT|Diffusion with Transformer | 極東晝寢愛好家

2025-11-22 22:42:38 199

原创 Flow Matching|什么是“预测速度场 vt=ε−x”?

vtv_tvt​输出速度场:是本文采用的技术的核心,模型学习的是一个从噪声指向干净数据的方向向量,这被认为比传统“预测噪声”的目标更高效。强调ODE采样:是为了突出其生成过程的确定性和高效性,可以使用更少的步骤快速生成高质量图片,这是该方法实用化的关键。

2025-11-09 22:01:02 568

原创 SDXL的进入Unet的text embedding是text encoder的倒数第二层(-2)

在。

2025-11-01 12:15:42 410

原创 域适应(Domain Adaptation)

是改造模型,让同一个模型能同时理解不同领域的特点。: 是改造数据,让不同领域的数据看起来更像。

2025-10-29 20:59:54 114

原创 SDXL的time_ids (add_time_ids)

这些额外参数让 SDXL 能够:✅ 利用双文本编码器的互补信息✅ 根据指定的图像尺寸进行优化生成✅ 保持生成图像的构图一致性✅ 处理不同长宽比的图像生成这就是为什么在 SDXL 中需要构造- 它提供了比原始 SD 更丰富的条件控制信息。

2025-10-27 13:44:22 227

原创 github中获得Personal Access Token

访问 GitHub → Settings → Developer settings → Personal access tokens → Tokens (classic)点击 "Generate new token" → "Generate new token (classic)"设置权限(至少需要 repo 权限)生成并复制token。

2025-10-26 20:02:32 279

原创 Text Inversion与DreamBooth的异同

你感觉两者“差不多”,是因为它们目标一致、输入输出形式相似,都属于“小样本个性化图像生成”这一新兴方向。但它们的实现路径完全不同像是“在字典里加一个新词”,不改变语言本身;DreamBooth像是“教模型学会一个新概念”,改变了模型的理解方式。因此,虽然表面上看起来都是在“教模型认识一个新东西”,但一个是在词嵌入空间中做 inversion,一个是在模型参数空间中做 fine-tuning,这是根本区别。

2025-10-07 10:39:54 350

原创 gdwon下载

【代码】gdwon下载。

2025-10-04 22:06:48 155

原创 https://duoke360.com/post/35063

转载:PyTorch通过torch.topk推导梯度 - 多课网,360度全方位IT技术服务站!

2025-10-02 18:11:08 266

原创 理解采样操作的不可微性及重参数化技巧

转载。

2025-10-02 15:22:51 175

原创 Stable Diffusion里面Cross-Attention设计:为啥Q来自图像/噪声,K和V来自文本

主动查询:图像生成过程主动地、动态地从文本条件中获取它需要的信息。在每一步去噪中,模型都会根据当前图像的“困惑”去寻求文本的“指导”。空间对齐:这种机制天然地建立了文本概念和图像空间区域之间的对应关系。通过可视化注意力图,我们可以看到在生成过程中,“狗”这个词会主要激活图像中狗所在区域的像素。这是实现精准构图的关键。条件控制的稳定性:文本条件(K, V)在整个去噪过程中是固定不变的。这提供了一个稳定的“目标”或“蓝图”,让噪声(Q)可以一步步地、坚定地向其靠近,保证了生成内容与文本提示的一致性。灵活性。

2025-10-01 23:08:31 902

原创 Stable Diffusion的U-Net中,交叉注意力机制的QKV

正确的说法应该是:Q来自图像/噪声,K和V来自文本。这种设计使得模型能够在去噪过程中,根据文本指导来有选择地关注图像的不同区域。· K 和 V 来自文本嵌入(通过文本编码器如CLIP Text Encoder得到)· Q 来自图像 latent(由U-Net处理的噪声潜变量)· Q = W_Q \cdot \text{图像特征}· K = W_K \cdot \text{文本嵌入}· V = W_V \cdot \text{文本嵌入}这个说法是不完全正确的,它混淆了Q、K、V的来源。

2025-10-01 19:31:17 466

原创 指数移动平均(Exponential Moving Average, EMA)的作用

EMA是一种有效的正则化技术,通过维护权重的移动平均来提高模型性能。在你的代码中,它默认启用(),衰减率为0.99996,通常会使最终模型获得1-2%的精度提升。

2025-09-27 16:41:49 395

原创 Textual Inversion引入新的可学习的Token

Textual Inversion 没有改变 CLIP 的词表大小,而是通过。来实现新概念的学习。这是一种"语义重映射"而非"词表扩展"

2025-09-24 16:21:14 135

原创 LLM中如何添加special_token,并且尽可能保持原模型的训练效果

在SFT(Supervised Fine-Tuning)阶段为LLM添加special_token(例如用于分隔用户和助手的。等)是一个非常常见的操作,但如果处理不当,确实会严重影响模型原有的性能。

2025-09-19 20:05:31 252

原创 VAR的教师强制teacher forcing

训练时:使用真实的前缀,预测下一个尺度(推理时:使用模型自己生成的前缀,自回归生成下一个尺度。

2025-09-03 21:58:47 239

转载 Dissecting VAR (一):从VQ到Multi-Scale RQ

前两天VAR拿到了NeurIPS 2024最佳论文,之前刚放到arXiv上的时候只是简单刷了一下,加了个github star,不过这两天细细读过之后才品出味道来。这个短系列将详细梳理VAR的细节与其关键技术,并展望一些拓展的可能性。本文首先介绍VQ相关。

2025-08-29 10:15:44 76

原创 AR模型的text encoder和 image encoder分别是什么?

组件传统扩散模型 (如Stable Diffusion)Visual AutoRegressive (VAR) 模型独立的CLIP Text Encoder或T5分词器 + 嵌入层,是模型前端的一部分独立的,用于预处理图像为token核心 backboneUNet(去噪扩散模型)单一的Transformer(自回归模型)工作流文本编码 → 引导UNet在潜空间去噪 → VAE解码文本分词 → 与图像token拼接 → Transformer自回归生成图像token → VQ解码输出表示。

2025-08-26 15:57:18 784

原创 自回归(Auto-Regressive, AR),自回归图像生成过程

使用一个自回归 Transformer 模型,根据文本嵌入 \( c \) 和已生成的前缀图像 token 序列 \( x_{1 \sim t-1} \),预测下一个图像 token \( x_t \)。其中 \( l_t \) 是基于完整文本的 logits,\( l_t' \) 是无条件(或无文本)的 logits,\( s \) 是引导强度。自回归模型的训练目标是**最大化图像 token 序列的条件似然**,即最小化**交叉熵损失(Cross-Entropy Loss)**。

2025-08-24 15:04:49 441

原创 论文阅读DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

Class-Specific Prior Preservation Loss 是一个巧妙的。

2025-08-24 12:09:53 832

原创 Prompt-to-Prompt| 修改Attention会有“反向传播”或梯度计算?

需要缓存注意力矩阵(attention maps)的中间结果。可能需要对注意力层进行多次反向传播或梯度计算(即使只是推理)。如果同时编辑多个词符(tokens),显存需求会指数级增长。:常规SDXL推理只需单向计算,无需保存中间变量。

2025-07-30 02:19:13 254

原创 SEGA: Instructing Text-to-Image Modelsusing Semantic Guidance

2025-07-28 22:54:05 411

原创 文件重命名

先用temp暂明名,然后重命名,以免遍历的时候被覆盖。

2025-07-12 23:33:43 312

原创 相同prompt用SDXL在不同project跑出的图片不一样

【代码】相同prompt用SDXL在不同project跑出的图片不一样。

2025-06-29 16:46:06 164

原创 余弦相似度cosine similarity越大越相似

2025-06-26 23:55:22 166

原创 L1正则化

❌ 可能导致激活收缩(需配合权重归一化)。✅ 可能提高特征多样性(允许小幅激活)。

2025-06-24 15:29:38 101

原创 Null-text Inversion for Editing Real Images using Guided Diffusion Models

【代码】Null-text Inversion for Editing Real Images using Guided Diffusion Models。

2025-06-12 23:38:07 793

原创 SDXL 和 SDXL-Turbo 的区别

SDXL-Turbo 是 SDXL 的蒸馏版本,latent space 结构基本一致,只是优化了推理路径。:SDXL-Turbo 的 latent 动态范围较小,训练 SAE/LoRA 可能不如 SDXL 稳定。:SDXL 的多步去噪能更好地捕捉语义方向,而 SDXL-Turbo 的快速推理可能丢失一些细节。(比如 SDXL 用 λ=2,SDXL-Turbo 用 λ=1)。,因为 SDXL 适合训练,SDXL-Turbo 适合推理。,但可能需要调整强度(λ)。,直接训练可能不稳定。,但可能需要调整 λ。

2025-06-11 11:26:49 958

原创 为什么 SDXL 用两个文本编码器?

如果需要进一步分析 SDXL 的文本编码机制,可以具体说明你的应用场景(例如特征提取、prompt 分析等)。OpenCLIP ViT-bigG 在 LAION-2B 上训练,擅长复杂语义。部分 SDXL 的微调模型(如 DreamBooth)可能仅使用其中一个编码器。OpenCLIP ViT-bigG 的层索引是 0-31(共 32 层)。CLIP ViT-L 的层索引是 0-11(共 12 层)。CLIP ViT-L 保持与 SD 1.x 的兼容性。在计算注意力或特征时,需明确指定是哪个编码器的输出。

2025-06-05 17:17:04 371

原创 统计1的个数

【代码】统计1的个数。

2025-06-02 23:04:50 113

原创 Linux 脚本文件编辑(vim)

文件只是一个配置文件,Git 会在每次运行时读取它的内容。修改配置文件后,不需要重新编译 Git 或任何相关程序。文件是 Bash Shell 的配置文件,用于定义用户登录时的环境变量、别名、函数等设置。文件后,通常需要重新加载它,以使更改生效。3.检查网络配置或dl设置。

2025-06-02 22:28:13 740

原创 excel生成随机种子

键,该单元格就会生成一个 1 到 50000 之间的随机整数。

2025-05-29 14:35:27 228

原创 稀疏自编码器(SAE)为什么要稀疏?

SAE的稀疏性是其核心设计,通过约束特征激活的稀疏性,学习到可解释的、解耦的语义特征。在概念擦除任务中,这些特征被用于定位和操作特定概念(如“名人”“裸露”),而无需调整模型参数,实现了高效、精准的干预。其学习过程本质上是为输入数据构建一个稀疏的、语义明确的特征空间。F%5Etar。

2025-05-28 17:44:49 455

原创 重构损失(Reconstruction Loss) L mse​ 和 余弦相似性损失(Cosine Similarity Loss) L cos​

衡量输入 x 和重构输出 x^ 之间的均方误差(MSE)。

2025-05-26 09:53:07 1552

原创 稀疏自编码器(Sparse Autoencoder,SAE)

在稀疏自编码器(Sparse Autoencoder,SAE)中,是一个重要的参数,用于定义编码器隐藏层的维度相对于输入维度的扩展程度。具体来说,它表示编码层的维度是输入维度的多少倍。例如,如果输入维度是,扩张因子是,那么编码层的维度。

2025-05-22 13:51:07 631

原创 论文阅读Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model

交叉注意力(CA)对齐约束的目标是确保图像中的编辑部分与文本描述保持一致。通过计算目标图像与源图像之间的交叉注意力图差异,并最小化这种差异,优化过程能引导目标图像的潜变量,使其在指定区域内与文本提示对齐,从而实现准确的图像编辑。通过最大化编辑区域和非编辑区域的注意力(attention)差异来优化潜变量(ztz_tzt​),这种反向指导编辑部分的思想在图像生成和编辑领域非常常见,尤其是在使用注意力机制和扩散模型的任务中。具体来说,这种方法属于引导生成过程。

2025-05-17 23:08:28 913 1

原创 “DiT和Flux”与“Stable Diffusion”两种不同的生成模型范式

Transformer通过旋转位置编码(RoPE)对位置信息进行编码,并应用多模态注意力机制(MMA),避免了数据压缩和放大过程中的丢失。:利用Transformer处理离散化的潜在表示,包括图像令牌和文本令牌,通过旋转位置编码对位置信息进行编码,然后应用多模态注意力机制进行去噪。:通过逐步添加噪声到初始输入信息中,模拟信息的扩散过程,再通过多次迭代逐渐去除噪声,最终得到清晰、准确的生成结果。:在细节处理和连贯性上表现更优,生成的图像质量更高,且在提示词遵循能力上更强。

2025-05-15 13:03:12 785

原创 人脸属性编辑的评估指标 Towards Scalable Human-aligned Benchmark for Text-guided Image Editing

计算该区域与目标属性文本(如“smiling face”)的CLIP相似度(σclip,aOFσclip,aOF​)。例如,“Make her smile”属于“动作”属性,但更复杂的编辑(如“改变发型”)可能缺乏标注支持。仅支持GQA标注的4类属性(颜色、状态、材质、动作),而人脸相关属性(如表情、年龄、发型)未被明确涵盖。但受限于数据标注,复杂人脸编辑(如年龄、发型)的评估仍需进一步扩展。衡量编辑后的人脸是否匹配目标属性(如“微笑”)。(如分割人脸子区域)来改进(但未在本文中实现)。

2025-05-15 12:53:20 445

竞争性自适应重加权算法(CARS)

竞争性自适应重加权算法(CARS)是一种在光谱分析、化学计量学和机器学习领域广泛应用的数据处理和变量选择方法。它基于自适应重加权采样(Adaptive Re-weighting Sampling, ARS)策略,旨在优化部分最小二乘(Partial Least Squares, PLS)模型的性能,特别是在高维数据集上。CARS的核心目标是找到最优的变量组合,这些组合能够最大化模型的预测能力和解释能力,同时减少过拟合的风险。 在CARS算法中,首先会根据PLS模型的回归系数绝对值对所有变量进行排序。那些具有较大绝对值的回归系数通常意味着对应变量对模型预测目标变量有较大影响。然后,CARS会采用自适应的方式,逐步增加或减少变量的权重,通过交叉验证(Cross-Validation, CV)来评估模型性能,具体使用的是均方根交叉验证误差(Root Mean Square Error of Cross Validation, RMSECV)作为评估指标。

2024-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除