爱吃兔子的胡萝卜RR-CSDN博客

原创 Stable Diffusion的微调方法原理总结

由于LoRA是将矩阵压缩到低秩后训练，所以LoRA网络的参数量很小（千分之一），训练速度快。具体做法是，加入一个新词（sks）代表subject，embedding初始值继承原类型的词的embedding。损失函数加入了监督功能，去监控漂移现象，防止灾难性遗忘“学会新的忘了旧的”。LoRA的网络是一种additional network，LoRA训练不改变基础模型的任何参数，只对附加网络内部参数进行调整。完全不改变神经网络中的任何参数。TI的简洁激发了很多研究者的灵感，基于TI思路的研究出现了很多。

2024-08-21 18:30:50 1478

原创虚拟试衣系列Magic Clothing: Controllable Garment-Driven Image Synthesis

具体做法是，随机选择5%的训练样本设置cG = ∅G，5%的训练样本设置cT = ∅T，另外5%的训练样本同时设置cG = ∅G和cT = ∅T。然后在推理时，引入服装指导尺度sG和文本指导尺度sT来分别调整服装和文本提示的条件控制的强度。VTON旨在生成穿着目标服装的特定模特图片，更多地是一种image-inpainting任务，只需要关注于保留目标服装的特征，而没有以特定的文本提示作为条件。以特定服装为条件的图像生成。服装驱动的图像生成任务旨在生成穿着指定服装的模特图片，并结合给定的文本提示。

2024-08-05 14:35:12 771

原创多模态模型BLIP2学习笔记

由于Q-Former已被预先训练以提取语言信息的视觉表示，因此它有效地充当信息瓶颈，为LLM提供最有用的信息，同时删除无关的视觉信息。将Q-Former的输出连接到冻结的LLM来执行视觉到语言的生成学习，训练Q-Former，使其输出的视觉特征可以被LLM理解。1、预训练的图像编码器：从输入图片中提取视觉特征（不同分辨率的图像输出相同数量的特征），使用CLIP预训练的VIT结构；将Q-Former连接到冻结图像编码器，使用图像文本对进行预训练，令Q-Former学习到与文本信息最相关的视觉表征。

2024-07-31 18:36:20 1246

原创 GPT/GPT-2/GPT-3模型与代码学习笔记

在Transformer Decoder，最后一个token聚合了整个句子的信息，可以作为全局特征用于下游任务。

2024-07-26 16:11:56 449 1

原创 ResNet学习笔记

设当前浅层网络的输出是x，学习目标是H(x)，则令新加入的层学习一个残差F(x) = H(x) - x，此时整个网络的输出就可以表示为F(x) + x，而网络的优化目标就 = F(x) = H(x) - x，即层学习输入与输出之间的差异。接下来的四个部分由3个，4个，6个和3个残差块组成，每个部分在结束时通过步幅为2的卷积减少特征图的大小。也就是说，有些特征可能会依赖于固定关系的隐含节点的共同作用，而通过Dropout的话，就有效地组织了某些特征在其他特征存在下才有效果的情况，增加了神经网络的鲁棒性。

2024-07-23 18:35:24 873

原创 DiT (Scalable Diffusion Models with Transformers) 论文学习笔记

在这个函数中，labels参数表示输入的标签，force_drop_ids用于指定哪些标签需要被强制丢弃，dropout_prob表示丢弃的概率，函数使用 torch.where函数根据 drop_ids是否=1将需要丢弃的标签替换为 self.num_classes，此时共有num_classes+1个类别。在训练过程中以一定概率令条件编码=空，得到条件生成和无条件生成的输出，再将其线性组合作为最终的输出。最后，我们将解码后的标记重新排列为其原始空间布局，以获得预测的噪声和协方差。位置编码：梯度不更新。

2024-07-15 18:47:03 1043

原创多模态模型BLIP(Bootstrapping Language-Image Pre-training)论文与代码分析

1、从模型角度来看，大多数方法要么采用基于编码器的模型，要么采用编码器-解码器模型。编码器的模型不太容易直接迁移到文本生成的任务中，如图像标题（image captioning）等；编码器—解码器模型还没有被成功用于图像-文本检索任务。2、从数据角度来看，大多数sota的方法，如CLIP都是对从网上收集的图像—文本对（image-text pair）进行预训练。尽管可以通过扩大数据集的规模来获得性能上的提高，但研究结果显示，有噪声的网络文本对于视觉语言学习来说只能得到次优的结果。

2024-07-15 18:42:28 2150

原创生成模型学习笔记——DDPM、DDIM、VAE、ControlNet

目录1、DDPM2、DDIM3、VAE（Variational AutoEncoder）4、ControlNet图像生成发展起源：从VAE、VQ-VAE、扩散模型DDPM、DETR到ViT、Swin transformer-CSDN博客

2024-07-10 18:21:00 1245

原创 Latent Diffusion Models (LDMs) 模型学习笔记

迭代地将噪声作用于图像，直至生成完全噪声图像。输入随机噪声（图像大小），使用Unet网络预测上一步添加的噪声，输出上一步的去噪结果，最终输出符合概率分布的生成图像。通过逐渐对正态分布变量进行去噪来学习数据分布p(x)，即学习长度为T的固定马尔可夫链的逆过程：其中t是从(1,2,…,T)中均匀采样得到的，模型可以解释为去噪自动编码器的权重相等的序列(通常以U-Net形式实现），经过训练来预测xt的去噪版本。扩散模型也能够通过使用条件去噪自动编码器对条件分布p(x|y)进行建模。

2024-07-04 14:13:56 8896 2

原创 BERT论文学习笔记

在计算损失函数时，可以将掩码向量与预测的token和实际的token相乘，这样就可以将没有被mask的token的损失值置为0，只计算被Mask的token的损失值。在微调阶段：对于15%被选中的词元，以80%的概率替换为[mask]，以10%的概率替换为一个随机的token，以10%的概率保持不变。1、基于特征的策略：对于每个下游任务，构造一个与这个任务相关的网络，预训练好的表示作为一个额外的特征，与原始输入一起送入模型中，因为预训练的特征已经有了比较好的表示，所以模型的训练比较容易。

2024-07-01 14:18:32 859

原创 Virtual Apparel Try-On based on Diffusion Model——基于diffusion的虚拟试衣论文学习笔记

给定两张描绘一个人和另一个人穿的衣服的图像，Tyron Diffusion的目标是生成一个可视化的图像，显示衣服在输入人身上的样子。以前的方法要么注重服装细节的保存，而没有有效的姿势和形状的变化，要么允许以所需的形状和姿势试穿，但缺乏服装细节。本文提出了一种基于扩散的架构，该架构统一了两个unet (称为Parallel-UNet)，这使我们能够在单个网络中保留服装细节并对服装进行扭曲，以实现显著的姿势和身体上的变化。给定一个人的图像Ip和另一个人穿着服装的图像Ig，该方法生成人穿着服装的试穿结果Itr。

2024-06-21 20:00:25 403

原创 CLIP模型学习笔记——Zero-Shot推理

每一个感兴趣的类别标签都通过prompt engineering生成一个文本描述，和输入图片一样，分别经过对应的编码器后提取到特征，计算余弦相似度后，再经过一个softmax输出最有可能的类别。通过学习一个泛化性能好的模型，从而在各种任务和数据集上不需要训练，直接推理（Zero-Shot）就能获得一个不错的结果。与分类模型不同，CLIP不需要预先定义的类别标签，而是从文本中获取监督信号，通过一个预训练的对比学习模型，提取到多模态的特征，从而得到任意一种类别的结果（泛化性高）。——提示，起到文本引导作用。

2024-06-14 16:58:13 2015

原创 YOLOv3论文学习笔记

Backbone生成的特征，一般按照stage进行划分，记作C1、C2、C3、C4、C5、C6、C7等，数字与stage的编号相同，表示的是分辨率减半的次数，如C2表示stage2输出的特征图，分辨率为输入图片的1/4，C5表示stage5输出的特征图，分辨率为输入图片的1/32。FPN主要解决的是目标检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小目标检测的性能。FPN将上一步生成的不同分辨率的特征作为输入，输出融合后的特征。输出特征一般以P作为编号标记。

2024-06-12 18:14:16 480

原创 Blind Face Restoration（盲人脸恢复）based on diffusion model 调研

为了匹配该分辨率，设计了一个编码网络F，包含几个卷积层，用于去除低质量图像的浅层退化并将其编码为64×64的清晰图像。（1）进一步探索了预训练的stable diffusion在盲人脸修复领域的生成能力，与GAN先验相比，stable diffusion可以提供更丰富、更多样化的先验知识，从而生成更真实逼真的面部细节。（3）提供了一个合成的人脸数据集，称为 Privacy-preserving-Faces-HQ (PFHQ)，该数据集包括60K配对的面部图像，具有平衡的种族、性别和年龄，用于训练恢复网络。

2024-06-06 18:18:05 1255

原创 YOLOv2论文学习笔记

（CVPR2017）

2024-06-05 16:57:21 771

原创 Vision Transformer (VIT) 笔记

同时在序列最前端增加了一个可学习的class embedding（cls），因为所有的token都在和其他所有的token做交互，所以cls可以从别的embedding中学到有用的信息，从而只需要根据它的输出作为最后的判断，比如接一个分类头进行分类，最后使用交叉熵损失函数进行模型的训练。但为了和原始的Transformer结构保持尽可能的一致，借鉴了bert中class token的操作，它能够从其他token中学到有用的特征，作为整张图像的特征表示。该层的作用是将patch映射为序列化的向量表示。

2024-06-04 19:02:05 1029 1

hjhr2018的博客

原创 Stable Diffusion的微调方法原理总结

原创虚拟试衣系列Magic Clothing: Controllable Garment-Driven Image Synthesis

原创多模态模型BLIP2学习笔记

原创 GPT/GPT-2/GPT-3模型与代码学习笔记

原创 ResNet学习笔记

原创 DiT (Scalable Diffusion Models with Transformers) 论文学习笔记

原创多模态模型BLIP(Bootstrapping Language-Image Pre-training)论文与代码分析

原创生成模型学习笔记——DDPM、DDIM、VAE、ControlNet

原创 Latent Diffusion Models (LDMs) 模型学习笔记

原创 BERT论文学习笔记

原创 Virtual Apparel Try-On based on Diffusion Model——基于diffusion的虚拟试衣论文学习笔记

原创 CLIP模型学习笔记——Zero-Shot推理

原创 YOLOv3论文学习笔记

原创 Blind Face Restoration（盲人脸恢复）based on diffusion model 调研

原创 YOLOv2论文学习笔记

原创 Vision Transformer (VIT) 笔记

原创 YOLOv1论文阅读笔记

原创 EDSR论文阅读笔记

原创 SRGAN论文学习笔记

原创 ESPCN论文阅读笔记

原创 SR综述论文阅读的一点点笔记

原创 VDSR论文学习笔记

原创《Deep Learning for Image Super-resolution:A Survey》论文学习笔记

原创 FSRCNN论文学习笔记

原创 SRCNN论文学习笔记

空空如也

空空如也