#今日论文推荐# 图像翻译哪家强？香港科技大学博士揭秘：预训练is All You Need_pretraining is all you need for image-to-image tra-CSDN博客

#今日论文推荐# 图像翻译哪家强？香港科技大学博士揭秘：预训练is All You Need

图像到图像翻译（Image-to-Image Translation）任务可以将一张输入图像进行指定的风格转换，也就是最终学习到一个函数能让A域图像映射到B域内，以此为基础可以解决许多实际问题，如风格迁移、属性迁移、图像超分辨率等等，在内容创作领域的应用场景十分丰富。

图像到图像的翻译问题本质上与使用深度生成模型（deep generative model）学习输入的自然图像的条件分布有关。
目前大量的相关工作都是在特定任务上进行定制模型，虽然推动了艺术的发展，但现有的解决方案要产生满足实际使用的高保真图像仍然很困难。
随着预训练范式在各种视觉和自然语言处理任务的成功，香港科技大学和微软亚洲研究院的研究人员提出了一个全新的模型PITI，成功将预训练模型引入到图像翻译任务中，在各种下游任务中的生成质量都得到显著提高，并且新方法在few-shot图像翻译方面也展现出极大潜力。

其关键思想是使用预训练的神经网络来捕捉自然图像流形（natural image manifold），从而使图像翻译等同于遍历该流形并找到与输入语义相关的可行点。
具体来说，合成网络应该使用大量的图像进行预训练作为生成先验，从其潜空间的任何采样都会生成一个合理的输出。有了一个强大的预训练合成网络后，下游的训练只需要将用户的输入适应于预训练的模型所能识别的隐藏表征即可。
之前的工作为了适应图像的语义分布，可能会降低图像生成的质量，而这篇论文提出的新框架由于在预训练阶段已经保证生成的样本严格位于自然图像流形上，所以图像翻译的质量也不会受到损失。

论文题目：Pretraining is All You Need for Image-to-Image Translation
详细解读：https://www.aminer.cn/research_report/62f6676f7cb68b460f019cf5https://www.aminer.cn/research_report/62f6676f7cb68b460f019cf5
AMiner链接：https://www.aminer.cn/?f=cs