Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

最新推荐文章于 2024-11-16 22:15:00 发布

东风中的蒟蒻

最新推荐文章于 2024-11-16 22:15:00 发布

阅读量660

点赞数 3

分类专栏： AIGC 文章标签： transformer 深度学习人工智能 AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50089378/article/details/141906445

版权

AIGC 专栏收录该内容

6 篇文章

订阅专栏

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022)

这篇论文试图解决的是盲目面部恢复（blind face restoration）问题，这是一个高度不确定的任务，通常需要辅助指导来改善从低质量（LQ）输入到高质量（HQ）输出的映射，或者补充输入中丢失的高质量细节。具体来说，论文关注以下几个关键问题：

如何在不知道具体退化过程的情况下（即盲目恢复），从严重退化的输入图像中恢复出高质量的面部图像。
如何减少恢复映射的不确定性和模糊性，特别是在输入图像质量较低时。
如何在保持高保真度的同时，生成具有丰富视觉细节的高质量面部图像。

为了解决这些问题，论文提出了一种基于Transformer的预测网络，名为CodeFormer，它利用在一个小的代理空间中学习的离散码本（codebook）先验，将盲目面部恢复任务转化为码预测任务。这种方法旨在通过全局建模低质量面部的组成和上下文，发现与目标面部紧密近似的自然面部，即使输入图像严重退化。此外，为了增强对不同退化类型的适应性，论文还提出了一个可控的特征转换模块，允许在保真度和质量之间进行灵活的权衡。

codeformer_2024-09-04_

本文的主要方法如下:

在高质量的数据集上训练一个VQVAE,得到一个具有清晰视觉细节的Decoder、CodeBook和Encoder
在低质量数据集上微调Encoder,并且在Encoder到CodeBook直接插入一个Transformer,用作LQ的Embdedding到HQ的Embedding的映射,因为空间是离散的,相当于一个分类预测任务了.注意transformer和Encoder是一起训练的.
一个CFT的short-cut来控制quality和fidelity之间的权衡.为什么这个CFT能控制,因为从encoder可通过short-cut传入的Embedding是能包含更多的信息,因此保真度(fidelity)更好,但是embedding的从LQ提取的,因此quality会变差.

上图给出了为什么使用VQVQE,因为VAE输出的Embedding是连续的,包含的潜空间太大,而VQVAE可以看作聚类,从LQ->HQ的映射,为了保证图像质量,我们希望这个映射空间较小,从而更可能生成高质量的图像.,更有利于模型学习.

codeformer_2024-09-04_

CodeFormer也可以用于图像编辑之类的.

做超分可以借鉴一下上述的pipeline
对于VQVAE、连续空间和离散空间的理解:连续空间包含更多信息,但是也会引入噪声;离散空间通过缩小映射空间从而过滤一下噪声.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

东风中的蒟蒻 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。