【无标题】

最新推荐文章于 2024-07-19 22:46:50 发布

蓝色橘猫

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量460

点赞数 9

文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/aojue1109/article/details/135059289

版权

图像编辑整理

常见的图像内容编辑介绍
- Anydoor进行图像编辑（效果不错）

常见的图像内容编辑介绍

InpaintAnything [58] 涉及 SAM [27] 和 StabbleDiffusion
[42]，用文本描述的目标替换源图像中的任何对象。
Paint-by-Example [56]使用CLIP
[40]图像编码器将目标图像转换为用于指导的嵌入，从而在场景图像上绘制语义一致性对象。对训练样本涵盖的类别表现效果很好，但与未出现类别表现不行。
ObjectStitch[48] 提出了与 [56] 类似的解决方案，它训练内容适配器将 CLIP
图像编码器的输出与文本编码器对齐，以指导扩散进度。

不足：这些方法只能提供粗略的指导，并且往往无法为未经训练的新概念合成ID 一致的结果。

BLIP-Diffusion [29] 利用 BLIP-2 [30]
来对齐图像和文本，从而支持使用零样本主题驱动生成。一些方法[10,23,46]探索了无微调主题驱动生成的大规模上游训练。
Fastcomposer [52] 将图像表示与某些文本嵌入绑定起来以进行多人生成。
经典的图像合成流程是剪切前景对象并将其粘贴到给定的背景上。图像协调[7,15,19,49]可以进一步调整粘贴区域以获得更合理的光照和颜色
DCCF [55] 设计金字塔滤波器以更好地协调前景。
CDTNet [14] 利用双变压器。 HDNet [8]提出了一种分层的结构来考虑全局和局部一致性，并达到最先进的水平。
不足：这些方法都只关注底层的变化，没有考虑到对前景对象的结构、视图和姿态的编辑，也没有考虑到阴影和反射的生成。

Anydoor进行图像编辑（效果不错）

Anydoor的流水线如图所示。在给定目标对象、场景和位置的情况下，任意门生成具有高清晰度和多样性的对象-场景组合。
其核心思想是用与身份和细节相关的特征来表示对象，并将这些特征注入预先训练的扩散模型中，在给定的场景中重新组合这些特征。
为了学习外观变化，我们利用包括视频和图像在内的大规模数据进行训练。

蓝色橘猫

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

InpaintAnything [58] 涉及 SAM [27] 和 StabbleDiffusion[42]，用文本描述的目标替换源图像中的任何对象。Paint-by-Example [56]使用CLIP[40]图像编码器将目标图像转换为用于指导的嵌入，从而在场景图像上绘制语义一致性对象。对训练样本涵盖的类别表现效果很好，但与未出现类别表现不行。ObjectStitch[48] 提出了与 [56] 类似的解决方案，它训练内容适配器将 CLIP。
复制链接

扫一扫