摘要: 从人类大脑活动中重建视觉体验提供了一种独特的方式来理解大脑如何代表世界,并解释计算机视觉模型与我们的视觉系统之间的联系。虽然深度生成模型最近被用于这项任务,但重建具有高语义保真度的逼真图像仍然是一个具有挑战性的问题。在此,我们提出了一种基于扩散模型(DM)的新方法来重建通过功能磁共振成像(fMRI)获得的人脑活动图像。更具体地说,我们依赖于一种称为稳定扩散的潜在扩散模型(LDM)。该模型降低了DM的计算成本,同时保持了其高生成性能。我们还通过研究LDM的不同组成部分(如图像Z的潜在向量、条件反射输入C和去噪U-Net的不同元素)如何与不同的大脑功能相关来表征LDM的内部机制。我们表明,我们提出的方法可以直接重建具有高保真度的高分辨率图像,而无需对复杂的深度学习模型进行任何额外的训练和微调。我们还从神经科学的角度提供了不同LDM成分的定量解释。总的来说,我们的研究提出了一种很有前途的从人类大脑活动中重建图像的方法,并为理解DMs提供了一个新的框架。
一、前言
计算机视觉的一个基本目标是构建像人类视觉系统那样观察和识别世界的人工系统。人口大脑活动测量的最新发展,结合深度神经网络模型的实现和设计的进展,使得生物大脑中的潜在表征与人工网络的架构特征之间的直接比较成为可能,为这些系统如何运行提供了重要的见解[3,8-10,13,18,19,21,42,43,54, 55]。这些努力包括从大脑活动中重建视觉体验(感知或想象),以及检查与生物和人工系统相关的计算过程之间的潜在对应关系[2,5,7,24,25,27,36,44-46]。
从大脑活动中重建视觉图像,如通过功能性磁共振成像(fMRI)测量的图像,是一个有趣但具有挑战性的问题,因为大脑中的潜在表征在很大程度上是未知的,并且通常与大脑数据相关的样本量相对较小[17,26,30,32]。近年来,研究人员已经开始使用深度学习模型和算法来解决这个问题,包括生成对抗网络(GANs)和自监督学习[2,5,7,24,25,27,36,44-46]。此外,最近的研究通过明确使用图像的语义内容作为重建的辅助输入来提高语义保真度[5,25]。然而,这些研究需要用功能磁共振成像数据从头开始训练新的生成模型,或者对功能磁共振成像实验中使用的特定刺激进行微调。这些努力在像素和语义保真度方面取得了令人印象深刻但有限的成功,部分原因是神经科学中的样本数量很少,部分原因是学习复杂的生成模型带来了许多挑战。
扩散模型(Diffusion models, DMs)[11,47,48,53]是近年来备受关注的深度生成模型。在条件图像生成[4,39,49]、图像超分辨率[40]、图像着色[38]以及其他相关任务[6,16,33,41]中,DM已经取得了最先进的性能。此外,最近提出的潜在扩散模型(ldm)[37]通过利用其自编码组件产生的潜在空间进一步降低了计算成本,使训练和推理阶段的计算更加高效。ldm的另一个优点是它们能够生成具有高语义保真度的高分辨率图像。然而,由于ldm是最近才引入的,我们对其内部机制仍然缺乏令人满意的了解。具体来说,我们仍然需要发现它们如何在DM的每一层中表示潜在信号,潜在表示在去噪过程中如何变化,以及添加噪声如何影响条件图像生成。
在这里,我们试图通过使用称为稳定扩散的LDM从fMRI信号重建视觉图像来解决上述挑战。该架构是在大型数据集上训练的,具有很高的文本到图像生成性能。我们证明了我们的简单框架可以重建具有高语义保真度的高分辨率图像,而无需对复杂的深度学习模型进行任何训练或微调。我们还提供了LDM的每个组成部分的生物学解释,包括正向/反向扩散过程、U-Net和不同噪声水平的潜在表征。
我们的贡献如下:(i)我们证明了我们的简单框架可以从具有高语义保真度的大脑活动中重建高分辨率(512*512)图像,而不需要训练或微调复杂的深度生成模型(图1);(ii)我们通过将特定成分映射到不同的大脑区域,从神经科学的角度定量解释LDM的每个组成部分;(iii)我们客观地解释了由LDM实现的文本到图像的转换过程是如何结合条件文本表达的语义信息,同时保持原始图像的外观。
二、相关工作
2.1从fMRI重建视觉图像
从功能磁共振成像活动中解码视觉体验已经以各种方式进行了研究。例子包括明确呈现的视觉刺激[17,26,30,32],呈现刺激的语义内容[15,31,52],想象内容[13,29],感知情绪[12,20,51]以及许多其他相关应用[14,28]。一般来说,由于低信噪比和与fMRI数据相关的相对较小的样本量,这些解码任务变得困难。
虽然早期的尝试是使用手工制作的特征来重建fMRI的视觉图像[17,26,30,32],但最近的研究已经开始使用在大量自然图像上训练的深度生成模型[2,5,7,24,25,27,36,44-46]。此外,一些研究使用与图像相关的语义信息,