论文解读| NeurIPS 2022:能量函数指导的随机微分方程及在图到图翻译任务的应用...

点击蓝字

c2db8a75e67030276b485e3fccf99dfb.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近日中国人民大学高瓴人工智能学院师生有23篇论文被CCF A类国际学术会议NeurIPS 2022录用。神经信息处理系统大会(Neural Information Processing Systems,简称NeurIPS) 是机器学习和计算神经科学领域的顶级国际会议。近期学院将推出【NeurIPS 2022论文解读专题】,详细分享被录用的优秀论文,供师生们交流学习。本篇解读论文信息如下:

论文题目:EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations

作者:赵敏,鲍凡,李崇轩,朱军

通讯作者:李崇轩,朱军

一、概述

5a7e377528536ff3f27825d159dc03a2.png

8bc9aa2940e965cf9f412322801f2733.png

9ea8f31539a4b4b7b7bb3b0e796fac3b.png

作为一种新的深度生成模型,扩散模型在图像生成领域取得了SOTA的效果,并且逐渐在诸多应用领域展现出强大的性能,如视频生成、分子图建模等。本文提出了一种一般的基于能量函数的扩散模型生成指导方法EGSDE。该方法旨在通过事先定义的能量函数对预训练好的SDE(扩散模型)进行指导从而实现可控生成。现有指导生成方法如classifier-guidance等可以理解为EGSDE的特例。理论上,本文从product of experts的角度解释了EGSDE的采样分布。实验上,本文聚焦于无监督的图到图翻译任务,解决了过去SDE方法没有用上源域训练数据的问题,在若干数据集上取得了最好的“可信-真实”权衡结果。原则上,通过定义不同的能量函数,EGSDE有潜力处理更广泛的可控生成任务如逆向分子设计等。

论文题目:EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations

论文地址:https://arxiv.org/abs/2207.06635

模型仓库:https://github.com/ML-GSAI/EGSDE

视频地址:

https://www.bilibili.com/video/BV1xg411h7qj/spm_id_from=333.999.0.0

二、动机

c85e0790e40e8ed8ec78dd842fc9f6e3.png

7ed20c95a6fd2b487140f71421cfb4aa.png

d8ff93e246a510524cd048d174e5e3b3.png

无监督的图到图翻译的任务是在没有成对数据的情况下学习源域到目标域的映射,且希望翻译后的图像一方面要去掉原图的域特有特征(例如在猫到狗任务中的鼻子、胡须)使其更“真实”,另一方面可以保留原图的域无关特征(例如在猫到狗任务中的姿势、色调)使其更“可信”。过去的几年里,基于GAN的模型成为这个领域主流的方法。随着扩散模型的发展,逐渐开始涌现一些基于扩散模型的图到图翻译方法并且取得了SOTA的结果。这些方法往往是在目标域训练一个SDE(扩散模型)保证“真实”,在测试的阶段用上原图的信息实现“可信”,但是并没有用上源域的训练数据。所以本文希望同时利用源域和目标域的数据训练一个能量函数,通过能量函数对预训练好的目标域SDE(扩散模型)进行指导生成,从而实现更“可信”且“真实”的图到图翻译(如图1所示)。

a928129b3db1c55e43644c421e4c2c8a.png

图1 EGSDE的框架图

三、方法

0a4d07373896c9a2a6fd87ad60e6feb2.png

f157a02bff2f1cabf8db5f40a04d08d3.png

3a2ac600de37b626f4c3893d601e904e.png

本方法的核心要义是如何根据任务设计合适的能量函数。在本文关注的图像翻译任务中,根据其目的,我们将能量函数拆成两项对数势函数,分别负责生成图像的“真实”和“可信”。

5cd9e44886e68b96e134305527b8ca88.png

进一步,我们将负责“真实”的对数势函数定义为原图和生成的图片经过域独特的特征提取器后之间的相似度(余弦相似度),负责“可信”的则定义为两者经过域无关的特征提取器后之间的负相似度(负距离的平方)。

cc1718c66f1e5b711c781fba5baa51a5.png

直观上来说,去噪过程中能量函数的减少一方面导致原图和翻译图片间的特有特征相似度变低,从而去掉原图中源域特有的特征,另一方面导致两者的域无关的特征相似度变高,从而保留原图中域无关的特征。

实现上,如图2所示,我们用分类器除去最后一层的剩下部分和低通滤波器分别当做域独特的特征提取器和域无关的特征提取器。至此,如图1所示,能量函数和SDE已知,从一个带噪声的原图出发,我们可以通过SDE solver对EGSDE进行采样实现图到图的翻译。除此之外,将依赖的二分类器拓展到多分类器,我们的方法也很容易拓展到多域翻译任务。

df8a74a4b8e7172237bdccd9d3cffe12.png

图2 特征提取器的实现

理论上,我们展示了对EGSDE的离散化采样近似等价于从如下product of experts形式的分布采样:

2a70319ca415221b6e6ac60d448d42f8.png

这为EGSDE中每个部分的作用提供了解释,其中SDE和对应于负责“真实”的专家,对应于负责“可信”的专家。

四、实验

8846e8b2825ab38665511532cc31c797.png

ba68946abea1dfcde13dd8b791c9703f.png

b37426926305d220d2bf2e6906e87876.png

在实验中,我们选择FID作为对“真实”的衡量,L2、PSNR、SSIM作为对“可信”的衡量,人工测量AMT作为同时两方面的衡量,在AFHQ和CelebA-HQ数据集验证方法的有效性。如图3所示,EGSDE取得了最好的“可信-真实”权衡结果,且通过调整超参可以进一步改善FID (51.04 in Cat → Dog)。

b7a9b4fef1ec1eb1456f76fc159b16a8.png

图3 在AFHQ数据集的量化结果对比

在图4b我们展示了一些可视化结果。在图4a,我们在Male→ Female上展示了关于能量函数权重的消融实验,越大,生成的图片越像女性、越“真实”, 越大,生成的图片保留原图更多的信息、越“可信”,验证了能量函数的作用。

五、在其他可控生成任务的潜在价值

8172e38fd00e7dd8bdf9f58aad406fa9.png

5fcce15237e276c2c57a06cc1db7b139.png

86106e19936d961066b566dc31b9a09f.png

原则上,通过定义不同的能量函数,EGSDE有潜力处理更广泛的可控生成任务。以逆向分子设计任务为例,在材料科学和药物研发领域中往往希望生成满足某些性质的分子。考虑到3D分子构象的几何对称性, 我们提出了适用于分子的等变能量函数指导的随机微分方程EEGSDE。实验上,通过设计合适的能量函数,我们在生成满足特定量子性质和分子结构的分子任务中取得了SOTA的结果。此外,通过对能量函数的线性叠加,EEGSDE可以生成具有多目标特性的分子。论文地址:https://arxiv.org/abs/2209.15408。

5a13c0f2799e74105cc247f06cf0a307.png

图4 (a)关于能量函数的消融实验;

(b)EGSDE的可视化效果。

往期精彩文章推荐

7a816dc6acfa0509b315c9e8420df5b0.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。

93537ff339f3380511bdf0efff08192a.png

我知道你

在看

~

430da53beb3eef6c00f56c36a87d689d.gif

点击 阅读原文 查看回放!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值