自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 问答 (1)
  • 收藏
  • 关注

原创 [2023CVPR]DreamBooth:Fine Tuning Text-to-Image Diffusion Models

首先,你先准备几张你家狗的图片(比如图1的四张),你想让你家狗游泳,那么我先用预训练的扩散模型生成1000张”一只狗在游泳“的图片,显然这种方式生成的狗各不相同。想让一个大模型适应你的主题,比如图1,你家的狗,你想把它P到各种地方,或者各种形态,你希望狗一定要像你家狗,但是P的地点和形态也要很真实和形象。然而,在主体的输出姿势和视图中存在减少可变性的风险。关于这些陷阱,我们观察到一个奇特的发现,基于一个使用扩散损失的仔细的微调设置,大的文本到图像的扩散模型似乎擅长于整合新的信息到他们自己的领域而不会忘记。

2023-06-08 16:55:57 264

原创 [Prompt Diffusion]In-Context Learning Unlocked for Diffusion Models

我们引入了一个新的模型架构,提示扩散,在视觉语言提示下执行上下文学习,可以适应各种各样的视觉语言任务。注意,这里的任务是颠倒的,因此我们颠倒了示例对和查询目标对的顺序。给定一对特定于任务的示例图像,例如depth from/to image和scribble from/to image,以及文本指导,我们的模型自动理解底层任务,并根据文本指导在新的查询图像上执行相同的任务。当任务输入是干净的图像时,我们称之为正向任务,当任务输入是图像条件时,我们称之为逆任务,例如。,它可以对广泛的视觉语言任务进行建模。

2023-05-26 16:58:49 296

原创 [ControlNet]Adding Conditional Control to Text-to-Image Diffusion Models

ControlNet的核心在于给stable diffusion施加了精准控图,stable diffusion生成的图本质上是通过prompt进行引导从噪声中生成的,text是唯一的输入,controlnet输入了text之外额外的一个维度,目前论文支持canny边缘图,hough线条,hed边缘图,简笔图,pose人体姿态,分割图,深度图等。制作这样的副本,而不是直接训练原始权重,是为了避免在数据集较小时过度拟合,并保持从数十亿图像中学习的大型模型的生产准备质量。内优化大型模型以完成特定任务非常重要。

2023-05-25 21:01:44 415

原创 [2019ICLR] GAN Dissection: Visualizing and Understanding Generative Adversarial Networks

然而接下来会出现一个新的问题:我们相关探究相关的不同单元的组合是如何影响最后的输出,但是简单的穷举搜索所有单元组合是不大现实的。在图中不同位置添加门时候发现,在大多数位置不能添加门,可以添加门的位置用黄色框突出显示,右上角图显示了门单元插入的平均因果效应,取决于干预位置的背景对象类。允许在建筑物中添加门,特别是在有窗户和砖块的合理位置,相反,在天空或者树上触发一扇门是不可能的。作者们称,我们可以观察到生成器的一个层,并且找到该层的单元的子集,在生成的图像中,这些单元决定。我们可以看出,在关于餐厅(

2023-05-06 23:21:17 208

原创 UVCGAN:UNet Vision Transformer cycle-consistent GAN for unpaired image-to-image translation

我们为CycleGAN生成器配备Vision Transformer(ViT)来提高非局部模式学习和采用先进的训练技术,如梯度惩罚和自我监督预训练,得到的模型,称为UVCGAN,可以在几个基准数据集中优于竞争模型。在UNet的编码路径上,预处理层将图像转换为tensor(w0,h0,f0),在每个下采样层之后,预处理tensor的高度和宽度减半,那么VIT层tensor的输入维度为(w, h, f) = (w0/16,h0/16,8f0)。分数越低,意味着翻译后的图像与目标域中的图像更相似。

2023-03-29 16:15:41 1318

原创 StarGAN: Unified Generative Adversarial Net works for Multi-Domain Image-to-ImageTranslation

如图2 (b)所示,我们的模型采用了多个域的训练数据,并仅使用一个生成器学习所有可用域之间的映射。我们的生成器不是学习固定的转换(例如,从黑色到金色的头发),而是同时接收图像和域信息作为输入,并学习灵活地将图像转换到相应的域。个域中的两个域中学习。通过这样做,生成器学会忽略未指定的标签,这些标签是零向量,并专注于显式给定的标签。之间交替使用,鉴别器学习了两个数据集中的所有鉴别特征,生成器学习了控制两个数据集中的所有标签。,这是一种新颖且可扩展的方法,可以仅使用单一模型为多个域执行图像到图像的转换。

2023-03-25 16:13:02 59

原创 [2020CVPR]StarGAN v2: Diverse Image Synthesis for Multiple Domains

映射网络(图2b):给定一个潜在代码z和一个域y,我们的映射网络F生成一个样式代码s = Fy(z),其中Fy(·)表示对应于域y的F的输出。样式编码器(图2c):给定一个图像x及其对应的域y,我们的编码器E提取x的样式代码s =Ey(x)。给定一个图像x∈x和任意定义域y∈y,我们的目标是训练一个生成器G,它可以生成与图像x对应的每个定义域y的不同图像。生成器(图2a):我们的生成器G将输入图像x转换为反映特定领域风格代码s的输出图像G(x, s),它由映射网络F或风格编码器E提供。

2023-03-23 21:02:47 241 1

原创 [2018IJCV]DRIT++: Diverse Image-to-Image Translationvia Disentangled Representations

为了合成多样性图像,我们把输入图像嵌入到两个空间中,一个是域不变的内容空间,捕获跨域之间的共享信息,另一个是域特殊的属性空间。我们的模型采用从给定输入中提取的编码内容特征,从属性空间中采样的属性向量,在测试时合成不同的输出图像。我们通过应用内容对抗损失,鼓励内容特征不携带域特定的信息,并且应用潜在回归损失来鼓励建在属性向量和对应输出之间的可逆映射,来获得解纠缠表示。域特定的属性空间目的在于在给定的相同内容(例如背景)的域中建模各种不同的变换(例如把猫换成狗),域不变的内容捕获跨域间之间的信息。

2023-03-21 23:26:42 486

原创 [2020ICLR]U-gat-it:Unsupervised generative attentional network with AdaLIN for I2I translation

对于定量评估,我们使用最近提出的KID,它计算真实图像和生成图像的特征表示之间的最大平均差异的平方。与之前基于注意力的方法无法处理域之间的几何变化不同,我们的模型既可以翻译需要整体变化的图像,也可以翻译需要较大形状变化的图像。如果浅层就开始使用IN,那么就可以对每个纹理进行操作(增强、减弱、抹除、反转等),从而改变图像的风格,使得内容得到保留(副作用是对深层的组合形状特征也造成了一定程度的影响,但由于不会抹除所有纹理,所以剩余纹理还是可以组合成大致形状特征的)。基于辅助分类的CAM加权特征图。

2023-03-11 16:09:32 121

原创 Independent Encoder for Deep Hierachical University Unsupervised Image-to-Image Translation

这样,编码器忽略了生成器或鉴别器的目标,专注于学习输入图像的DSI,从而保证了编码器的编码能力。具体来说,我们去掉了生成器和鉴别器的编码器,并引入了一个独立的编码器,这意味着编码器不再受其他网络的影响。鉴别器的目标是将输入图像映射为向量,以确定域是否对齐,生成器的目标是转换另一个域中的图像,这意味着编码器的目标与生成器和判别器的目标不同。所以,编码器的训练现在不再接收其他网络产生的损失。为了解决这个问题,我们提出了一种新的架构,称为IEGAN,它去掉了每个网络的编码器,并引入了一个独立于其他网络的编码器。

2023-03-02 23:19:23 114

原创 [2020CVPR] ReusingDiscriminators for Encoding(NICEGAN)

在我们的框架中,编码器和鉴别器是重叠的,如果我们采用传统的训练设置——作为翻译的一部分的编码器被训练为最小化,同时它属于鉴别器,也被训练为最大化,这会带来不稳定性。在本文中,我们考虑了一种更有效的方法,将单个输入的不同层的特征映射视为不同尺度的图像,然后将每一层的特征映射以相应的输入大小馈送到分类器进行判别,这类似于特征金字塔表示在目标检测中的应用(如SSD和FPN)。通过这种改进,我们的方法在调整不同特征图的重要性上变得更加灵活,从而在训练中获得了更好的效果,这将在我们的实验中得到验证。

2023-02-21 10:56:10 370

原创 [2020ECCV]Contrastive Learning for Unpaired Image-to-Image Translation

[2020ECCV]Contrastive Learning for Unpaired Image-to-Image Translation

2023-02-10 11:27:14 1395

原创 [2021CVPR]The Spatially-Correlative Loss for Various Image Translation Tasks

【2021cvpr】The Spatially-Correlative Loss for Various Image Translation Tasks

2023-02-08 17:33:34 434 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除