[ECCV 2024] 视觉重建论文解读：DreamDiffusion: Generating High-Quality Images from Brain EEG Signals

可是我偏偏就是不想要转弯.

已于 2024-10-17 16:26:36 修改

阅读量2.6k

点赞数 41

分类专栏：视觉重建论文解读文章标签：计算机视觉深度学习人工智能

于 2024-10-16 22:15:17 首次发布

本文链接：https://blog.csdn.net/qq_50848391/article/details/142939152

版权

DreamDiffusion: Generating High-Quality Images from Brain EEG Signals

老规矩，开头还是得说一段话，讲讲为什么要写这篇论文，这篇论文算是入学以来接触视觉重建这个领域以来读的第一篇论文，
现在也正在复现这篇代码。以前以为已经搞懂了这篇论文，但在组会讨论时才发现自己读文章有很多需要改进的地方。
还有很多地方处理的细节并没有深究，导致有疑问时，却没有可以回答的思路。
在讨论实验结果时，因为没看论文的实验结果，所以对实验的结果也存在着认知偏差。
所以现在就想再重新读一下这篇论文，认真梳理一下文章内容。

文章目录

<center>DreamDiffusion: Generating High-Quality Images from Brain EEG Signals
一、研究目的
二、研究背景
- 2.1 两个挑战
- 2.2 fMRI数据
- - fMRI的数据特征和数据形式
  - fMRI视觉重建的Related Work
三、研究内容(主要贡献)
四、技术路线
- 4.1 Masked signal pre-training for effective and robust EEG representations
- 4.2 Fine-tuning with Stable Diffusion on limited EEG-image pairs
- 4.3 Aligning the EEG, text, and image spaces with CLIP encoders
五、实验结果
- 5.1 Implementation details
- 5.2 Comparison with Brain2Image
- 5.3. Ablation studies(消融实验)

一、研究目的

本文介绍了 DreamDiffusion，这是一种直接从脑电图（EEG）信号生成高质量图像的新方法，无需将想法转化为文本(以往的视觉重建模型的常见做法是要将EEG信号通过一系列操作转换为Text去指导image的生成)。

二、研究背景

2.1 两个挑战

脑电图信号是无创捕获的，因此本质上是嘈杂的。此外，脑电图数据有限，个体差异不容忽视。如何在这么多约束下从脑电信号中获得有效和稳健的语义表示？

为了解决第一个挑战，我们建议使用大量的 EEG 数据而不是仅使用罕见的 EEG 图像对来训练 EEG 表示。
具体来说，我们采用掩蔽信号建模，根据上下文线索预测缺失的标记。
与 MAE 和 MinD-Vis 将输入视为二维图像并掩盖空间信息不同，我们考虑了脑电信号的时间特性，并深入挖掘了人们大脑时间变化背后的语义。
我们随机掩盖了一定比例的 token，然后在时域中重建了那些被掩盖的 token。
通过这种方式，预先训练的编码器可以深入了解不同人和各种大脑活动的脑电图数据。

由于使用了 CLIP 和对大量文本图像对的训练，Stable Diffusion中的文本和图像空间得到了很好的对齐。但是，脑电信号有其自身的特点，其空间与文本和图像的空间有很大不同。如何将 EEG、文本和图像空间与有限和嘈杂的 EEG 图像对对齐？

至于第二个挑战，我们利用 CLIP 的图像编码器来提取与 CLIP 文本嵌入非常一致的丰富图像嵌入。
然后，这些 CLIP 图像嵌入用于进一步优化 EEG 嵌入表示。
因此，精炼后的脑电图特征嵌入可以与 CLIP 图像和文本嵌入很好地对齐，更适合于 SD 图像生成，从而提高生成图像的质量。

2.2 fMRI数据

其实我觉得在利用fMRI重建图像的论文也可以看看，好像不少思想都是从fMRI2img中借鉴过来的

fMRI的数据特征和数据形式

功能性磁共振成像（Functional Magnetic Resonance Imaging，fMRI）是一种神经影像学技术，其基本原理是利用磁振造影来测量神经元活动所引发的血液动力的改变，由于其非侵入性（不需要注射放射性同位素或其他药理代理）和相对低廉的成本以及具有良好的空间分辨率，fMRI已经在认知神经科学、临床心理/心理学和术前规划中被广泛使用。

常见的功能性磁共振成像（fMRI）数据格式是DICOM（Digital Imaging and Communicationsin Medicine）。DICOM是医学影像领域的一种标准格式，用于存储医学影像数据，包括MRI、CT、PET等。DICOM格式的fMRI数据通常包含多个序列，每个序列代表了一次扫描（即一个时间点），并包含了体积图像数据以及相关的元数据，比如扫描参数、患者信息等。这种格式在医学影像研究中广泛使用，并且可以方便地与其他医学影像工具和软件进行交互和分析。
在这里插入图片描述

静息状态下不同位置人脑截面图

fMRI的介绍参考中国人民大学健康大数据研究院-fMRI数据介绍

fMRI视觉重建的Related Work

对于 fMRI 的使用，传统方法依靠 fMRI-图像配对数据来训练模型以预测 fMRI 的图像特征。这些图像特征将被馈送到 GAN中，以便在测试期间进行刺激重建。然而，最近的研究提出了无监督的方法，例如可重构的自动编码器设计，以从未配对的 fMRI 和图像中学习，并利用回归模型提取潜在的 fMRI 表示，可用于微调预先训练的条件 BigGAN 以进行解码。最近的工作 MinD-Vis 集成了 SC-MBM 和 DC-LDM，以生成更合理的图像和更好地保留的语义信息。

三、研究内容(主要贡献)

本文的贡献可以总结如下：

首先，我们利用大量含噪的EEG数据进行掩蔽信号建模，以训练EEG编码器提取上下文知识。
然后，得到的EEG编码器通过交叉注意力机制提供条件特征给Stable Diffusion。
为了提高EEG特征与Stable Diffusion的兼容性，我们在微调过程中进一步对齐EEG、文本和图像嵌入空间，通过减少EEG嵌入与CLIP图像嵌入之间的距离来实现。
最终，我们能够获得DreamDiffusion，它仅通过EEG信号生成高质量的图像。

四、技术路线

4.1 Masked signal pre-training for effective and robust EEG representations

由于 EEG 数据固有的可变性和噪声，传统的建模方法通常难以从 EEG 信号中提取有意义的信息。因此，采用掩蔽信号建模技术已被证明可以有效地从嘈杂和可变数据中捕获上下文信息(《Masked autoencoders are scalable vision learners》、《Seeing beyond the brain: Conditional diffusion model with sparse masked modeling for vision decoding》,这两篇论文说的)，代表了从大规模嘈杂的 EEG 数据中获取有意义的上下文知识的有前途的途径。与MAE 和 MinD-Vis将输入视为二维图像并掩盖空间信息不同，我们考虑了脑电信号的时间特性，并深入挖掘了人们大脑时间变化背后的语义。

我们首先在时域中将它们划分为标记，并随机掩盖一定比例的token。随后，这些标记将使用一维卷积层转换为嵌入。然后，我们使用非对称架构，如 MAE，根据来自周围标记的上下文线索来预测缺失的token。通过重建掩蔽信号，预先训练的 EEG 编码器可以深入了解不同人和各种大脑活动的 EEG 数据。
在这里插入图片描述

在这里插入图片描述
MAE模型的基本原理

MAE 的思想很简单：mask 输入图像的随机 patches，并重建缺失的 pixels。MAE 基于两个核心设计。

首先，我们开发了一个非对称 (asymmetric) 的编码器-解码器架构，编码器只操作于 patches 的可见子集 (无 mask
tokens)，轻量级解码器从潜在表示和 mask tokens 中重构原始图像。
其次，我们发现高比例地 mask 输入图像 (如 75%) 产生了一个重要 (non-trival) 和有意义的自监督任务。

Masking 我们按照 ViT 将一幅图像划分成规则无重叠的 (non-overlapping) patches。然后，从所有 patches 中采样一个子集，并