[ECCV 2024] 视觉重建 论文解读:DreamDiffusion: Generating High-Quality Images from Brain EEG Signals

DreamDiffusion: Generating High-Quality Images from Brain EEG Signals

老规矩,开头还是得说一段话,讲讲为什么要写这篇论文,这篇论文算是入学以来接触视觉重建这个领域以来读的第一篇论文,
现在也正在复现这篇代码。以前以为已经搞懂了这篇论文,但在组会讨论时才发现自己读文章有很多需要改进的地方。
还有很多地方处理的细节并没有深究,导致有疑问时,却没有可以回答的思路。
在讨论实验结果时,因为没看论文的实验结果,所以对实验的结果也存在着认知偏差。
所以现在就想再重新读一下这篇论文,认真梳理一下文章内容。

文章目录

  • <center>DreamDiffusion: Generating High-Quality Images from Brain EEG Signals
  • 一、研究目的
  • 二、研究背景
    • 2.1 两个挑战
    • 2.2 fMRI数据
      • fMRI的数据特征和数据形式
      • fMRI视觉重建的Related Work
  • 三、研究内容(主要贡献)
  • 四、技术路线
    • 4.1 Masked signal pre-training for effective and robust EEG representations
    • 4.2 Fine-tuning with Stable Diffusion on limited EEG-image pairs
    • 4.3 Aligning the EEG, text, and image spaces with CLIP encoders
  • 五、实验结果
    • 5.1 Implementation details
    • 5.2 Comparison with Brain2Image
    • 5.3. Ablation studies(消融实验)

一、研究目的

  本文介绍了 DreamDiffusion,这是一种直接从脑电图 (EEG) 信号生成高质量图像的新方法,无需将想法转化为文本(以往的视觉重建模型的常见做法是要将EEG信号通过一系列操作转换为Text去指导image的生成)。

二、研究背景

2.1 两个挑战

  • 脑电图信号是无创捕获的,因此本质上是嘈杂的。此外,脑电图数据有限,个体差异不容忽视。如何在这么多约束下从脑电信号中获得有效和稳健的语义表示
为了解决第一个挑战,我们建议使用大量的 EEG 数据而不是仅使用罕见的 EEG 图像对来训练 EEG 表示。
具体来说,我们采用掩蔽信号建模,根据上下文线索预测缺失的标记。
与 MAE 和 MinD-Vis 将输入视为二维图像并掩盖空间信息不同,我们考虑了脑电信号的时间特性,并深入挖掘了人们大脑时间变化背后的语义。
我们随机掩盖了一定比例的 token,然后在时域中重建了那些被掩盖的 token。
通过这种方式,预先训练的编码器可以深入了解不同人和各种大脑活动的脑电图数据。
  • 由于使用了 CLIP 和对大量文本图像对的训练,Stable Diffusion中的文本和图像空间得到了很好的对齐。但是,脑电信号有其自身的特点,其空间与文本和图像的空间有很大不同。如何将 EEG、文本和图像空间与有限和嘈杂的 EEG 图像对对齐
至于第二个挑战,我们利用 CLIP 的图像编码器来提取与 CLIP 文本嵌入非常一致的丰富图像嵌入。
然后,这些 CLIP 图像嵌入用于进一步优化 EEG 嵌入表示。
因此,精炼后的脑电图特征嵌入可以与 CLIP 图像和文本嵌入很好地对齐,更适合于 SD 图像生成,从而提高生成图像的质量。

2.2 fMRI数据

  其实我觉得在利用fMRI重建图像的论文也可以看看,好像不少思想都是从fMRI2img中借鉴过来的

fMRI的数据特征和数据形式

  功能性磁共振成像(Functional Magnetic Resonance Imaging,fMRI)是一种神经影像学技术,其基本原理是利用磁振造影来测量神经元活动所引发的血液动力的改变,由于其非侵入性(不需要注射放射性同位素或其他药理代理)和相对低廉的成本以及具有良好的空间分辨率,fMRI已经在认知神经科学、临床心理/心理学和术前规划中被广泛使用。

  常见的功能性磁共振成像(fMRI)数据格式是DICOM(Digital Imaging and Communicationsin Medicine)。DICOM是医学影像领域的一种标准格式,用于存储医学影像数据,包括MRI、CT、PET等。DICOM格式的fMRI数据通常包含多个序列,每个序列代表了一次扫描(即一个时间点),并包含了体积图像数据以及相关的元数据,比如扫描参数、患者信息等。这种格式在医学影像研究中广泛使用,并且可以方便地与其他医学影像工具和软件进行交互和分析。
在这里插入图片描述

静息状态下不同位置人脑截面图

fMRI的介绍参考 中国人民大学健康大数据研究院-fMRI数据介绍

fMRI视觉重建的Related Work

  对于 fMRI 的使用,传统方法依靠 fMRI-图像配对数据来训练模型以预测 fMRI 的图像特征。这些图像特征将被馈送到 GAN中,以便在测试期间进行刺激重建。然而,最近的研究提出了无监督的方法,例如可重构的自动编码器设计,以从未配对的 fMRI 和图像中学习,并利用回归模型提取潜在的 fMRI 表示,可用于微调预先训练的条件 BigGAN 以进行解码。最近的工作 MinD-Vis 集成了 SC-MBM 和 DC-LDM,以生成更合理的图像和更好地保留的语义信息。

三、研究内容(主要贡献)

本文的贡献可以总结如下:

  • 首先,我们利用大量含噪的EEG数据进行掩蔽信号建模,以训练EEG编码器提取上下文知识。

  • 然后,得到的EEG编码器通过交叉注意力机制提供条件特征给Stable Diffusion。

  • 为了提高EEG特征与Stable Diffusion的兼容性,我们在微调过程中进一步对齐EEG、文本和图像嵌入空间,通过减少EEG嵌入与CLIP图像嵌入之间的距离来实现。

  • 最终,我们能够获得DreamDiffusion,它仅通过EEG信号生成高质量的图像。
    在这里插入图片描述

四、技术路线

4.1 Masked signal pre-training for effective and robust EEG representations

  由于 EEG 数据固有的可变性和噪声,传统的建模方法通常难以从 EEG 信号中提取有意义的信息。因此,采用掩蔽信号建模技术已被证明可以有效地从嘈杂和可变数据中捕获上下文信息(《Masked autoencoders are scalable vision learners》、《Seeing beyond the brain: Conditional diffusion model with sparse masked modeling for vision decoding》,这两篇论文说的),代表了从大规模嘈杂的 EEG 数据中获取有意义的上下文知识的有前途的途径。与MAE 和 MinD-Vis将输入视为二维图像并掩盖空间信息不同,我们考虑了脑电信号的时间特性,并深入挖掘了人们大脑时间变化背后的语义

  我们首先在时域中将它们划分为标记,并随机掩盖一定比例的token。随后,这些标记将使用一维卷积层转换为嵌入。然后,我们使用非对称架构,如 MAE,根据来自周围标记的上下文线索来预测缺失的token。通过重建掩蔽信号,预先训练的 EEG 编码器可以深入了解不同人和各种大脑活动的 EEG 数据。
在这里插入图片描述


在这里插入图片描述
MAE模型的基本原理
在这里插入图片描述

  MAE 的思想很简单:mask 输入图像的随机 patches,并重建缺失的 pixels。MAE 基于两个核心设计。

  • 首先,我们开发了一个非对称 (asymmetric) 的编码器-解码器架构,编码器只操作于 patches 的可见子集 (无 mask
    tokens),轻量级解码器 从潜在表示和 mask tokens 中重构原始图像。
  • 其次,我们发现高比例地 mask 输入图像 (如 75%) 产生了一个重要 (non-trival) 和有意义的自监督任务。

Masking  我们按照 ViT 将一幅图像划分成规则无重叠的 (non-overlapping) patches。然后,从所有 patches 中采样一个子集,并

### 参与ECCV 2024关于视觉重建的研究或会议 #### 研究论文和主题概述 欧洲计算机视觉国际会议(ECCV)是一个重要的学术活动,专注于计算机视觉领域最新的研究进展。对于即将举行的ECCV 2024,预计会有大量涉及视觉重建方面的高质量研究工作被提交并讨论。 视觉重建是指通过图像或其他形式的数据来恢复三维场景结构的过程,在此过程中可能涉及到多种技术和算法的应用。具体来说,该领域的研究可以分为几个主要方向: - **多视角几何**:利用来自不同角度拍摄的一系列二维图片构建物体或环境的三维模型[^1]。 - **单目深度估计**:仅依靠一张照片预测其对应的深度图,从而实现简单的3D建模效果。 - **光场成像技术**:捕捉光线的方向信息以获得更精确的空间感知能力。 - **基于学习的方法**:采用机器学习尤其是深度神经网络来进行高效的特征提取以及复杂的映射关系建立。 为了更好地准备参加此类高水平的专业论坛,建议关注以下几个方面的工作: - 浏览往届ECCV及其他顶级会议上发表的相关文章,了解当前最前沿的技术趋势和发展动态; - 探索开源项目库中的实际案例分析,加深对理论知识的理解程度; - 积极参与到在线社区和技术交流平台上的讨论当中去,与其他研究人员分享见解、解决问题共同进步。 ```python import numpy as np from skimage import io, color from matplotlib import pyplot as plt def load_image(file_path): img = io.imread(file_path) gray_img = color.rgb2gray(img) return gray_img image_data = load_image('example.jpg') plt.imshow(image_data, cmap='gray', interpolation='nearest') plt.show() ``` 上述代码展示了如何加载并显示灰度化处理后的测试图像,这一步骤通常作为后续预处理的基础操作之一用于各种类型的视觉重建任务之中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值