多模态
文章平均质量分 94
明天吃啥呀
这个作者很懒,什么都没留下…
展开
-
学习笔记:CLIPstyler: Image Style Transfer with a Single Text Condition 具有单一文本条件的图像风格迁移
现有的神经风格迁移方法需要参考风格图像将风格图像的纹理信息迁移到内容图像。然而,在许多实际情况下,用户可能没有参考的风格图像,但仍然有兴趣通过想象来传递风格。为了处理此类应用需求,本文提出了一个新框架,该框架可以在“没有”风格图像,只有所需风格的文本描述的情况下实现风格迁移。使用预训练文本-图像嵌入模型 CLIP,本文演示了仅在单个文本条件下对内容图像风格的调制。具体来说,本文提出了一种具有多视图增强的patch文本-图像匹配损失,以实现逼真的纹理传输。原创 2022-11-27 18:24:11 · 3845 阅读 · 1 评论 -
学习笔记:StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators 图像生成器的CLIP引导领域适应
本文提出了StyleGAN-NADA,一种基于视觉-语言预训练模型(CLIP)引导的图像生成器非对抗领域适应的零样本方法。通过使用CLIP来指导生成器的训练,将生成模型的领域迁移到一个新的领域,只使用文本提示,生成的图像能够产生风格和形状的巨大变化,远远超越原始生成器的领域。原创 2022-10-09 22:01:14 · 2498 阅读 · 0 评论 -
学习笔记:Towards Counterfactual Image Manipulation via CLIP 基于CLIP的反事实图像处理研究
本文提出了一种新颖的文本引导图像处理框架CF-CLIP,可以在给定目标文本描述的情况下实现准确和高保真的反事实编辑;为了全面探索CLIP针对反事实概念的丰富语义信息,本文设计了一个对比损失CLIP-NCE,以基于预定义的CLIP空间方向从不同角度指导编辑;另外,作者还设计了一个简单而有效的文本嵌入映射模块(TEM),它允许在潜码优化期间显式利用CLIP嵌入,以促进准确的编辑。原创 2022-10-04 22:44:05 · 915 阅读 · 0 评论 -
CLIP学习笔记:Learning Transferable Visual Models From Natural Language Supervision
CLIP:Learning Transferable Visual Models From Natural Language Supervision 利用自然语言监督学习可迁移的视觉模型摘要1. 介绍2. 方法2.1 自然语言监督2.2 创建足够大的数据集2.3 选择有效的预训练方法2.4 选择和缩放模型2.5 训练3. 实验3.1 零样本迁移3.2 表示学习3.3 对自然分布迁移的鲁棒性总结原创 2022-04-25 00:18:07 · 3615 阅读 · 0 评论