自己整理版
贡献
我们提出了协作扩散(Collaborative Diffusion),用户可以使用多种模式来控制面部生成和编辑。
(a) 人脸生成。考虑到多模式控制,我们的框架合成与输入条件一致的高质量图像。(b) 脸部编辑。协作扩散还支持真实图像的多模式编辑,具有良好的身份保存功能。
我们使用预先训练的单模态扩散模型来执行多模态引导面部生成和编辑。在反向过程的每一步(即从时间步 t 到 t − 1),动态扩散器预测空间变化和时间变化的影响函数,以选择性地增强或抑制给定模态的贡献。
(1) 我们提出了 Collaborative Diffusion,一种简单有效的方法来实现不同扩散模型之间的合作。
(2) 我们充分利用扩散模型的迭代去噪性质,设计了 Dynamic Diffuser 来预测在时间和空间上均有适应性的 Influence Functions 来控制不同的扩散模型如何合作。
(3) 我们实现了高质量的多模态控制的人脸生成和编辑。
(4) Collaborative Diffusion 是一个通用的框架,不仅适用于图片生成,还适用于图片编辑,以及未来更多的基于扩散模型的其他任务。
模型
扩散生成模型,其工作原理是向可用训练数据添加噪声(高斯噪声)(也称为前向扩散过程),然后反转该过程(称为去噪或反向扩散过程)以恢复数据**。 模型逐渐学会消除噪声。 这种学习的去噪过程从随机种子(随机噪声图像)生成新的高质量图像
单模态条件扩散模型
- 逐步向源图片添加高斯噪声,知道完全破坏为近似纯高斯噪声
- 反转学习,马尔科夫链,每一步都学习高斯转变
- 用负对数似然变分界来做损失函数,训练网络
多模态协同合成
- 在每一步去噪时,用 Dynamic Diffusers 动态地预测每个扩散模型对整体预测结果带来的影响
- 扩散器是学习得到的,由 UNet实现动态扩散器
- 每一次去噪都学参数,然后预测
多模式协同编辑
- 由于整合任意的扩散模态,所以可以灵活编辑
Paper Review
problem&Problem
只接受固定的模式组合,
大多是单一模式,对多种条件的利用仍有待探索
建⽴统一框架的必要性
Method
直觉: 多模态处理增加准确性,拓展可编辑性
缺点:时间复杂度比较高,只生成了图片
实现组件:单模态扩散,动态匹配器
Metrics :
FID 计算特征表⽰之间的距离
CILP 归一化图像和文本之间的余弦相似度
DATASET:
CelebAMask-HQ,由30,000 张图像中的每张图像的手动
注释分割掩模组成
以及 CelebA Dialog 上的文本驱动模型。
参考文献
collaborative diffusion for multi-modal face generation and editing