图像编辑一些概念:Image Reconstruction与Image Re-generation

不当菜鸡的程序媛

已于 2024-11-19 13:57:13 修改

阅读量954

点赞数 21

分类专栏： Diffusion 文章标签：计算机视觉人工智能

于 2024-11-19 13:28:22 首次发布

本文链接：https://blog.csdn.net/vivi_cin/article/details/143882564

版权

Diffusion 专栏收录该内容

27 篇文章

订阅专栏

图像编辑本质上是在“图像重建”（image reconstruction）和“图像再生成”（image re-generation）之间寻找平衡。

1. Image Reconstruction（图像重建）

定义：图像重建通常是指从已有的图像中提取信息，并通过保持这些信息的完整性来恢复或调整图像。
目标：尽可能忠实于原始图像，注重保留输入图像中的细节和结构。
应用场景：
- 修复受损图像，例如去噪、去除划痕。
- 图像超分辨率（提升图像分辨率）。
- 微小的调整，如颜色校正或轻微修复。
特点：关注的是保留图像中的“已知信息”，并在这个基础上进行细微的改动。

2. Image Re-generation（图像再生成）

定义：图像再生成是指基于输入图像的某些特征，生成一个新的图像。生成的图像可能在风格、内容或结构上与原始图像有显著不同。
目标：允许较大的改动，强调创造性，可能会改变图像的风格或结构。
应用场景：
- AI风格迁移（Style Transfer）。
- 深度图像生成（例如用GAN生成完全新颖的内容）。
- 内容替换，如将人脸换成另一张脸，或者改变背景。
特点：生成新的内容，可能偏离原始输入图像，具有更多“创造性”。

二者的核心区别

方面	Image Reconstruction	Image Re-generation
保留原始图像	保留原始图像的内容和结构	允许对原始图像进行较大幅度的改变
目标	尽可能忠实于输入	在输入基础上生成新的内容或样式
自由度	改动幅度小，限制较多	改动幅度大，允许创造性变化
方法	例如卷积神经网络（CNN）用于修复或重建	例如生成对抗网络（GAN）用于新图像生成

为什么需要在两者间寻找平衡？

在图像编辑任务中，有时希望既保留原始图像的细节（重建），又能够实现所需的显著变化（再生成）。如果偏向重建，可能缺乏创新性；如果完全再生成，可能失去了原图的特征。
比如：

头像美化：既要保留人物本来的面貌（重建），又希望美化皮肤和光影（再生成）。
背景替换：保留主体（重建），但替换为新的背景（再生成）。

所以，图像编辑需要权衡“保留细节”和“生成新内容”这两方面的需求，因为两者在某些情况下可能是对立的，但理想的编辑效果需要找到一个平衡点。

图像编辑问题的核心困难：

困难点：缺少图像对（pairwise image data）
图像编辑任务中，理想情况是通过成对的训练数据（即“输入图像”和“目标编辑结果图像”）来学习编辑模型。例如：

输入图像：一个普通的人物照片。
目标图像：同一个人微笑的照片（仅改变笑容，不改变其他细节）。

问题在于：

现实中很少能收集到这种一一对应的成对数据，因为人工生成这样的图像对需要大量时间和资源。
缺乏这种配对数据导致模型很难学习如何在保留原图内容的基础上，仅做局部或特定的修改。

解决方法：从对齐（alignment）角度出发

"We address this problem from an alignment perspective."

方法：对齐弱编辑模型和强编辑模型
- 弱编辑模型（weak editing model）：这里指现有的 Text-to-Image（T2I）模型，例如 DALL-E。这些模型通过重新生成图像（而不是直接编辑原图）来完成“编辑”，但很难保证生成的新图像与原图一致。
- 强编辑模型（strong editing model）：理想中的图像编辑模型，既能充分保留原图信息，又能完成特定的编辑任务（如修改表情、添加物体等）。
关键思想：蒸馏和对齐
- 从 T2I 模型的再生成能力中学习（即“蒸馏”其生成能力）。
- 同时通过技术手段（如对齐过程）提高生成图像与原图之间的一致性（consistency）。

为什么需要解决一致性问题？

"We then distill and align such a weak editing model into a strong one by maximally inherit the re-generation capability while improving image consistency."

再生成能力（re-generation capability）：
T2I 模型的优势在于可以生成完全不同的图像，这种再生成能力很强，能创造出大量细节。但是，这种能力对图像编辑来说是双刃剑，因为过于自由的生成会破坏原图的基本信息。
图像一致性（image consistency）：
编辑任务要求生成的图像与原图有高度一致性，例如同一人脸、同一场景，仅改变特定细节（如颜色、姿势）。为了增强一致性，需要通过对齐方法让弱模型更好地保留原图信息，同时实现编辑目标。