- 博客(20)
- 收藏
- 关注
原创 DiT (Scalable Diffusion Models with Transformers) 论文学习笔记
在这个函数中,labels参数表示输入的标签,force_drop_ids用于指定哪些标签需要被强制丢弃,dropout_prob表示丢弃的概率,函数使用 torch.where函数根据 drop_ids是否=1将需要丢弃的标签替换为 self.num_classes,此时共有num_classes+1个类别。在训练过程中以一定概率令条件编码=空,得到条件生成和无条件生成的输出,再将其线性组合作为最终的输出。最后,我们将解码后的标记重新排列为其原始空间布局,以获得预测的噪声和协方差。位置编码:梯度不更新。
2024-07-15 18:47:03
338
原创 多模态模型BLIP(Bootstrapping Language-Image Pre-training)论文与代码分析
1、从模型角度来看,大多数方法要么采用基于编码器的模型,要么采用编码器-解码器模型。编码器的模型不太容易直接迁移到文本生成的任务中,如图像标题(image captioning)等;编码器—解码器模型还没有被成功用于图像-文本检索任务。2、从数据角度来看,大多数sota的方法,如CLIP都是对从网上收集的图像—文本对(image-text pair)进行预训练。尽管可以通过扩大数据集的规模来获得性能上的提高,但研究结果显示,有噪声的网络文本对于视觉语言学习来说只能得到次优的结果。
2024-07-15 18:42:28
1068
原创 生成模型学习笔记——DDPM、DDIM、VAE、ControlNet
目录1、DDPM2、DDIM3、VAE(Variational AutoEncoder)4、ControlNet图像生成发展起源:从VAE、VQ-VAE、扩散模型DDPM、DETR到ViT、Swin transformer-CSDN博客
2024-07-10 18:21:00
765
原创 Latent Diffusion Models (LDMs) 模型学习笔记
迭代地将噪声作用于图像,直至生成完全噪声图像。输入随机噪声(图像大小),使用Unet网络预测上一步添加的噪声,输出上一步的去噪结果,最终输出符合概率分布的生成图像。通过逐渐对正态分布变量进行去噪来学习数据分布p(x),即学习长度为T的固定马尔可夫链的逆过程:其中t是从(1,2,…,T)中均匀采样得到的,模型可以解释为去噪自动编码器的权重相等的序列(通常以U-Net形式实现),经过训练来预测xt的去噪版本。扩散模型也能够通过使用条件去噪自动编码器对条件分布p(x|y)进行建模。
2024-07-04 14:13:56
726
原创 BERT论文学习笔记
在计算损失函数时,可以将掩码向量与预测的token和实际的token相乘,这样就可以将没有被mask的token的损失值置为0,只计算被Mask的token的损失值。在微调阶段:对于15%被选中的词元,以80%的概率替换为[mask],以10%的概率替换为一个随机的token,以10%的概率保持不变。1、基于特征的策略:对于每个下游任务,构造一个与这个任务相关的网络,预训练好的表示作为一个额外的特征,与原始输入一起送入模型中,因为预训练的特征已经有了比较好的表示,所以模型的训练比较容易。
2024-07-01 14:18:32
766
原创 Virtual Apparel Try-On based on Diffusion Model——基于diffusion的虚拟试衣论文学习笔记
给定两张描绘一个人和另一个人穿的衣服的图像,Tyron Diffusion的目标是生成一个可视化的图像,显示衣服在输入人身上的样子。以前的方法要么注重服装细节的保存,而没有有效的姿势和形状的变化,要么允许以所需的形状和姿势试穿,但缺乏服装细节。本文提出了一种基于扩散的架构,该架构统一了两个unet (称为Parallel-UNet),这使我们能够在单个网络中保留服装细节并对服装进行扭曲,以实现显著的姿势和身体上的变化。给定一个人的图像Ip和另一个人穿着服装的图像Ig,该方法生成人穿着服装的试穿结果Itr。
2024-06-21 20:00:25
21
原创 CLIP模型学习笔记——Zero-Shot推理
每一个感兴趣的类别标签都通过prompt engineering生成一个文本描述,和输入图片一样,分别经过对应的编码器后提取到特征,计算余弦相似度后,再经过一个softmax输出最有可能的类别。通过学习一个泛化性能好的模型,从而在各种任务和数据集上不需要训练,直接推理(Zero-Shot)就能获得一个不错的结果。与分类模型不同,CLIP不需要预先定义的类别标签,而是从文本中获取监督信号,通过一个预训练的对比学习模型,提取到多模态的特征,从而得到任意一种类别的结果(泛化性高)。——提示,起到文本引导作用。
2024-06-14 16:58:13
374
原创 YOLOv3论文学习笔记
Backbone生成的特征,一般按照stage进行划分,记作C1、C2、C3、C4、C5、C6、C7等,数字与stage的编号相同,表示的是分辨率减半的次数,如C2表示stage2输出的特征图,分辨率为输入图片的1/4,C5表示stage5输出的特征图,分辨率为输入图片的1/32。FPN主要解决的是目标检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量的情况下,大幅度提升了小目标检测的性能。FPN将上一步生成的不同分辨率的特征作为输入,输出融合后的特征。输出特征一般以P作为编号标记。
2024-06-12 18:14:16
360
原创 Blind Face Restoration(盲人脸恢复)based on diffusion model 调研
为了匹配该分辨率,设计了一个编码网络F,包含几个卷积层,用于去除低质量图像的浅层退化并将其编码为64×64的清晰图像。(1)进一步探索了预训练的stable diffusion在盲人脸修复领域的生成能力,与GAN先验相比,stable diffusion可以提供更丰富、更多样化的先验知识,从而生成更真实逼真的面部细节。(3)提供了一个合成的人脸数据集,称为 Privacy-preserving-Faces-HQ (PFHQ),该数据集包括60K配对的面部图像,具有平衡的种族、性别和年龄,用于训练恢复网络。
2024-06-06 18:18:05
816
原创 Vision Transformer (VIT) 笔记
同时在序列最前端增加了一个可学习的class embedding(cls),因为所有的token都在和其他所有的token做交互,所以cls可以从别的embedding中学到有用的信息,从而只需要根据它的输出作为最后的判断,比如接一个分类头进行分类,最后使用交叉熵损失函数进行模型的训练。但为了和原始的Transformer结构保持尽可能的一致,借鉴了bert中class token的操作,它能够从其他token中学到有用的特征,作为整张图像的特征表示。该层的作用是将patch映射为序列化的向量表示。
2024-06-04 19:02:05
662
1
原创 YOLOv1论文阅读笔记
YOLO网络借鉴了GoogLeNet,输入图像尺寸为448×448,经过24个卷积层,2个全连接层,最后reshape操作,输出特征图大小为7×7×30。在PASCAL VOC数据集上,S=7,B=2,C=20,因此网络的输出为S × S × (5×B+C) → 7 × 7 × (2×5+20)。w, h:bounding box的宽和高,也归一化到了0-1之间,表示相较于原始图像(448×448)的宽和高的比例。(1)将输入图像的大小调整为448×448,分割得到7×7大小的网格;
2024-06-03 16:20:17
474
原创 EDSR论文阅读笔记
《Enhanced Deep Residual Networks for Single Image Super-Resolution》是首尔国立大学Bee Lim 等人于2017年发表于CVPR的一篇文章,该文章在SRResnet的基础上改进了网络冗余,提出了一种增强型深度超分辨率网络(EDSR),其性能超过当前最先进的SR方法。
2023-03-08 22:20:32
980
1
原创 SRGAN论文学习笔记
《Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network》是Christian Ledig等人于2017年发表于CVPR上的又一篇SR重建的论文,将生成对抗网络(GAN)用于图像超分辨率重建,在感知质量方面取得了巨大的进步,重建图像放大四倍后依然能够呈现清晰地纹理细节。
2023-01-29 00:23:23
946
原创 ESPCN论文阅读笔记
《Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network》是Wenzhe Shi等人于2016年提出的一种新的SR重建方法,发表于CVPR,在单图像和视频超分辨率上再次表现出了更加良好的速度与性能。
2022-11-27 20:10:31
1140
1
原创 SR综述论文阅读的一点点笔记
SR综述论文《Deep Learning for Single Image Super-Resolution: A Brief Review》、《A Deep Journey into Super-resolution: A Survey》的一点点笔记。
2022-11-23 21:03:30
863
原创 VDSR论文学习笔记
VDSR网络是韩国首尔国立大学Jiwon Kim等人在SRCNN基础上又一次新的突破,在单图像超分辨率重建(SR)方面展示出了更好的性能。
2022-11-17 16:12:26
1545
原创 《Deep Learning for Image Super-resolution:A Survey》论文学习笔记
图像超分辨率重建是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中的一类重要图像处理技术。基于深度学习的图像超分辨率重建方法之间的差别主要存在于以下几个方面:①不同类型的网络架构②不同类型的损失函数。③不同类型的学习策略
2022-11-11 09:32:21
1210
原创 FSRCNN论文学习笔记
SRCNN作为卷积神经网络应用于SR领域0到1的突破,与传统的图像重建方法相比取得了较好的性能。在此基础上,Chao Dong等人针对其存在的问题进行了改进,进一步提出了更为轻量型的FSRCNN网络,在保证性能的基础上大大提升了网络速度。
2022-11-09 16:34:17
921
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人