wangyunpeng33-CSDN博客

原创【研究生工作周报】

一致性模型的Key idea这周主要是在搞懂Consistency Model原理的基础上，复现图像生成任务的结果，动手拆解各个模块的代码，研究各个超参数在论文里提到的CD和CT两种训练方法下对模型性能的影响。想法是尝试应用到图像生成之外的领域，看看能否应用到text2image或image2image等下游任务。

2023-04-23 02:30:37 563 2

原创 Stable Diffusion之Scheduler模块比对生成结果

diffusers包含多个用于扩散过程的预置scheduler function，用于接收经过训练的模型的输出，扩散过程正在迭代的样本，以及返回去噪样本的时间步长。在其他扩散模型又被称为采样器。

2023-04-08 22:25:35 8509 1

原创 Stable Diffusion原理以及CAC的应用

添加本文记录学习使用huggingface上得diffuser仓库提供的各种扩散模型相关论文的模型接口，处理的各种生成任务，如何加载和配置pipeline， schedulers，models。想要看text-guided img2img任务的中间结果，需要客制化采样器时候还没有调通text-encoder传来的encoder_hidden_states。

2023-04-02 02:59:19 723

我们可以通过在扩散过程中注入交叉注意力映射来编辑图像，控制哪个像素在哪个扩散步骤中关注提示文本的哪个标记。当在提示符中交换一个单词时，我们注入源图像映射Mt，覆盖目标图像映射M∗t，以保持空间布局。在添加新短语的情况下，我们只注入与提示符未更改部分对应的映射。第二种是全局编辑图像，例如，通过在提示符中添加新词并冻结对先前标记的注意力，同时允许新的注意力流向新的标记来更改样式。第一种方法是在固定交叉注意力映射的同时，改变提示符中的单个标记值(例如，“狗”改为“猫”)，以保留场景组成。

2023-03-25 23:53:49 901

原创 CycleGAN vs DDIB

GAN 和 DDPM 都可以用于图像翻译任务，但是它们的工作原理有所不同，因此对图像原始内容的保留程度存在差异。GAN 是基于对抗训练的生成模型，它的目标是通过训练生成器和判别器来使生成器生成的样本尽可能接近真实数据分布。在图像翻译任务中，生成器被训练为将输入图像转换为目标域中的图像，而判别器则被训练为将生成器生成的图像与真实目标域中的图像区分开来。由于判别器的存在，生成器被迫产生具有真实感的图像，这意味着它必须捕捉到图像的整体结构和细节特征，而不是简单地复制输入图像的像素值。

2023-02-26 00:47:21 593 2

原创 DDIB论文中ImageNet Translation复现

常见的图像到图像转换方法依赖于对来自源域和目标域的数据进行联合训练。这种训练过程难以保护域数据的隐私，并且通常意味着必须为一对新的域训练新模型。双重扩散隐式桥接 (DDIB)是一种基于扩散模型的图像翻译方法，可绕过域对训练。。这两个步骤都是通过 ODE 定义的，因此该过程仅在 ODE 求解器的离散化误差方面是循环一致的。从理论上讲，我们将 DDIB 解释为源到潜在、潜在到目标薛定谔桥的串联，这是一种熵正则化的最优传输形式。

2023-02-12 01:35:00 1497 1

原创 DDPM-DDIM-DDIB

首先，与DDPMS相比，DDIMS具有更好的样本生成质量，当我们使用我们提出的方法将采样加速10×100×时。其次，DDIM样本具有以下“一致性”特性，而这在DDPMS中不成立：如果我们从相同的初始潜在变量开始，生成几个具有不同长度马尔可夫链的样本，这些样本将具有相似的高级特征。第三，由于DDIMS中的一致性，我们可以通过操纵DDIMS中的初始潜在变量来进行语义上有意义的图像插值，而不像DDPMS中由于随机生成过程而在图像空间附近进行插值（类似于StyleGAN的隐空间插值）。

2022-12-11 00:04:50 2261

原创【研究生工作周报】（DDPM vs GAN）

（1）GAN模型可以获得很高的生成质量，但是高质量是通过牺牲多样性实现的，并且GAN模型的设计需要精密的参数选择，否则很容易崩溃，这些缺点限制了GAN模型在下游任务的应用。（2）目前对GAN模型架构上的研究非常丰富，有比较完善的实验探究结果。（3）扩散模型已经被证明可以生成高质量的图像，并且相比于GAN能够更好地覆盖样本分布，但对扩散模型架构的研究相对较少，扩散模型仍有继续改进的潜力。（1）从GAN的实验中得到启发，对扩散模型进行大量的消融实验，找到了更好的架构。（2）在ImageNet的生成任务中打败了最

2022-12-04 01:49:15 1382

原创【研究生工作周报】（DDPM）

超参数设置超参数设置使用absl中flags进行管理，num_res_blocks是Unet中每个level的resnet层数，attn是attention block，这个是后面我们加入condition的途径，非常重要。beta_1和beta_T对应于β1\beta_1β1,βT\beta_TβT，实际的βt\beta_tβt是在β1\beta_1β1,βT\beta_TβT中线性采样得到的。DDPM原文中研究了是否固定βt。

2022-11-13 01:39:51 1902

原创【研究生工作周报】（DAI2I）

不成对训练下的图像转换image-to-image translation (I2I)在各种应用中都取得了巨大的成功。但其泛化能力仍然是一个悬而未决的问题。本文证明了现有的I2I模型不能很好地推广到训练域之外的样本，首先，当测试样本超出其有效输入域时，I2I模型可能无法正常工作。其次，如果预期输出与模型训练的结果相距甚远，则结果不可靠。为了解决这些问题，提出了一种域自适应图像到图像转换（DAI2I）框架，该框架使I2I模型适用于域外样本。

2022-11-06 03:59:10 404

原创【研究生工作周报】（SemanticStyleGAN）

最近的研究表明，StyleGANs为图像合成和编辑的下游任务提供了有希望的先验模型。然而，由于StyleGANs的潜代码旨在控制全局样式，很难实现对合成图像的细粒度控制。本文提出SemanticStyleGAN，一个生成器被训练成单独建模局部语义部分，并以组合方式合成图像。不同局部区域的结构和纹理由相应的潜码控制。实验结果表明，该模型提供了不同空间区域之间的强解缠性。当与为StyleGANs设计的编辑方法相结合时，它可以实现更细粒度的控制来编辑合成或真实的图像。该模型还可以通过迁移学习扩展到其他领域。

2022-10-29 23:39:40 586

原创【研究生工作周报】（GAN最新论文调研）

GAN论文调研

2022-10-15 20:48:22 1408

原创【研究生工作周报】（stylegan）

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。1）借鉴风格迁移，提出基于样式的生成器（style-based generator）。实现了无监督地分离高级属性(人脸姿势、身份)和随机变化(例如雀斑，头发)实现对生成图像中特定尺度的属性的控制。生成器从一个可学习的常量输入开始，隐码在每个卷积层调整图像的“样式”，从而直接控制不同尺度下图像特征的强度。2）实现了对隐空间（latent space）较好的解耦。

2022-10-02 03:38:51 2014 1

原创【研究生工作周报】（CAM）

对于NICE-GAN模型中用到的组件，部分只是进行原理上的简单介绍，至于为什么使用这些组件，它是怎么起作用的，还需要起源追朔，比如SN-GAN中首次提出spectral normalization这种新的权重归一化方法来稳定判别器的训练，还有U-GAT-IT模型中如何通过CAM（Class Activation Map）实现注意力机制，（GAP→→CAM→→提示：以下是本篇文章正文内容，下面案例可供参考个人对于注意力机制的理解&bmps;

2022-09-23 21:29:04 1201

原创【研究生工作周报】(NICE-GAN论文再回顾)

早在假期就对这篇论文做过初步研究，但碍于当时在对抗生成网络这一领域的基础比较薄弱，所以对论文的理解比较肤浅。通过这段时间对CGAN，pix2pix，CycleGAN等经典GAN模型学习之后，在理论和实践层面对GAN有了一个比较系统的认识。本周就NICE-GAN模型进行一个理论上的总结。对于两个图像域DomainXDomain XDomainX和DomainYDomain YDomainY，给定联合分布p(X,Y)p(X,Y)p(X,Y)

2022-09-17 23:23:32 2391

原创【研究生工作周报】（cyclegan消融实验）

数据集：horse2zebra。

2022-09-11 00:34:37 1705 1

原创【研究生工作周报】

输入首先经过reflection padding，再经过一个conv2d, norm layer 和 Rule 的组合，然后进入下采样阶段——先后经过两个下采样模块（conv2d → norm layer → Relu），然后经过若干个残差块（6 |/9），随后进入上采样阶段——先后经过两个上采样模块，只不过将下采样模块中的conv2d换成反卷积操作convtranspose2d，最后在经过一次reflection padding，conv2d, 然后经过tanh得到最后输出。...

2022-09-01 15:23:46 1245

原创【研究生工作周报】

cyclegan

2022-08-27 13:13:17 247

原创【研究生工作周报】

Xshell创建tunnel，监听服务器。映射成功后，在本地登陆 http://localhost:18097/ 即可。训练代码中含有可视化visdom，需要通过visdom进行训练过程追踪。在浏览器输入visdom给出的网址后，出现找不到IP地址的警告！三种初始化SummaryWriter方法。需要监听云端服务器visdom的信息。Domain B的判别器暂时未收敛。先在本地安装visdom，启动测试。安装好visdom后监听服务器端口。另一种方法是在xshell中设置。...

2022-08-21 10:57:26 320

原创【研究生工作周报第十四周】

组成，但是为什么要连两个生成器和两个判别器呢？论文中说，是为了避免所有的X都被映射到同一个Y(模式缺失model collapse)，比如所有手写数字的图像都映射到手写“1”的图像上，这显然不合理，所以为了避免这种情况，论文采用了两个生成器的方式，既能满足X->Y的映射，又能满足Y->X的映射，这一点其实就是变分自编码器VAE的思想，是为了适应不同输入图像产生不同输出图像。（1）是判别器Y对X->Y的映射G的损失，判别器X对Y->X映射的损失也非常类似。（2）是两个生成器的循环损失，这里其实是。......

2022-08-14 00:09:56 921

原创研究生工作周报（第十三周）

这周的话主要就是看论文源码，有思考一些问题，带着疑问向有pytorch代码经验的师兄和认识的博主请教一些经验，感悟颇多，总结一下。当然写代码这件事作为科班生一直都在做，但深度学习的代码又明显和之前做的工程项目代码不同，拿到一篇论文的源码，几个主要模块model，dataset，train他们背后的目的和逻辑还是有必要捋清楚的。一般来说，比较好的code顺序是先写model，再写dataset，最后写train。model构成了整个深度学习训练与推断系统骨架，也确定了整个AI模型的输入和输出格式。对于视觉

2022-08-07 06:55:56 2236

原创【研究生工作周报】（第十二周）

CVPR2020风格迁移之NICE-GAN。

2022-07-31 05:04:00 606

原创【研究生工作周报】(第十周)

缺陷计算IS时只考虑了生成样本，没有考虑真实数据，即IS无法反映真实数据和样本之间的距离，IS判断数据真实性的依据，源于InceptionV3的训练集ImageNet，在InceptionV3的“世界观”下，凡是不像ImageNet的数据，都是不真实的，都不能保证输出一个sharp的preditiondistribution。是否多样检测生成模型是否只能生成有限的几种清晰图片，陷入了所谓的modecollapse，这样的模型也不是好的模型。熵很大（均匀分布）。...

2022-07-17 09:05:15 1170

原创【研究生工作周报】（第九周）

Unsupervised Image-to-Image Translation Networks (UNIT)的特征如下：●Two distinct domains 两个不同的domain● Unpaired training data 数据不对应，就是一个domain中图片，没有和他对应的另外一个domain的照片● Share the same latent space z● Domain Invariant feature这里相当于一个VAE+GAN要找到两个domain的share

2022-07-10 02:19:14 1046 2

原创【研究生工作周报】（第八周）

机器学习任务中，一般都假设训练集和测试集分布一致，所以在训练集上训练模型，测试集上测试。但是实际使用中测试集一般和训练集数据分布会出现很大差异，所以模型在实际使用中效果可能会下降很多。(比如用中国人训练的人脸检测模型在检测外国人的时候效果会下降)协方差偏移(convariance shift)：数据的边缘分布发生变化，可以理解为训练集和测试集数据分布差异。领域适应是迁移学习的研究任务之一，主要解决convariance shift问题，训练集与测试集的数据分布不匹配(不满足独立同分布条件)问题，即特征空间一

2022-07-03 02:07:01 702

转载【剑指 Offer II 091. 粉刷房子】

动态规划

2022-06-25 23:46:32 115

原创【研究生工作周报】（第七周）

生成对抗网络GAN（Generative adversarial nets）是由Goodfellow等人于2014年提出的基于深度学习模型的生成框架，可用于多种生成任务。从名称也不难看出，在GAN中包括了两个部分，分别为”生成”和“对抗”，整两个部分也分别对应了两个网络，即生成网络（Generator）GGG和判别网络（Discriminator）DDD，为描述简单，以图像生成为例：生成网络（Generator）GGG用于生成图片，其输入是一个随机的噪声z\boldsymbol{z}z，通过这个噪

2022-06-25 18:55:08 789 1

wangyunpeng33的博客

原创【研究生工作周报】

原创 Stable Diffusion之Scheduler模块比对生成结果

原创 Stable Diffusion原理以及CAC的应用

原创交叉注意力控制

原创 CycleGAN vs DDIB

原创 DDIB论文中ImageNet Translation复现

原创 DDPM-DDIM-DDIB

原创【研究生工作周报】（DDPM vs GAN）

原创【研究生工作周报】（DDPM）

原创【研究生工作周报】（DAI2I）

原创【研究生工作周报】（SemanticStyleGAN）

原创【研究生工作周报】（GAN最新论文调研）

原创【研究生工作周报】（stylegan）

原创【研究生工作周报】（CAM）

原创【研究生工作周报】(NICE-GAN论文再回顾)

原创【研究生工作周报】（cyclegan消融实验）

原创【研究生工作周报】

原创【研究生工作周报】

原创【研究生工作周报】

原创【研究生工作周报第十四周】

原创研究生工作周报（第十三周）

原创【研究生工作周报】（第十二周）

原创【研究生工作周报】(第十周)

原创【研究生工作周报】（第九周）

原创【研究生工作周报】（第八周）

转载【剑指 Offer II 091. 粉刷房子】

原创【研究生工作周报】（第七周）

原创研究生工作周报（第六周）

原创【研究生工作周报】（第五周）

原创研究生工作周报（第四周）

原创【研究生工作周报】（第三周）

原创研究生工作周报

原创【Leetcode】433. 最小基因变化

原创【研究生工作周报】

原创 Photoshop CS6的使用心得

空空如也

空空如也