小红书多模态团队建立新「扩散模型」：解码脑电波，高清还原人眼所见

最新推荐文章于 2024-09-15 15:29:29 发布

小红书技术REDtech

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量1.2k

点赞数 26

文章标签：人工智能计算机视觉深度学习 AAAI CV 脑机接口扩散模型

本文链接：https://blog.csdn.net/redtech_1024/article/details/135782434

版权

近些年，研究人员们对探索大脑如何解读视觉信息，并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文，通过扩散模型重建视觉影像，给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么，并且帮你画了出来。‭‌‌‭‍

第一行：人眼所见画面，第二行：AI 重现的画面‭‌‌‭‍

简而言之，AI 利用 fMRI 信号（全称为功能性核磁共振成像）+ Diffusion Model，就能一定程度上实现「读脑术」。‭‌‌‭‍

‭‌‌‭‍不过，如何有效提取并利用 fMRI 信号中隐含的语义和轮廓信息，仍然是业界的一个关键挑战。‭‌‌‭‍

‭‌‌‭‍在上月揭晓的 AAAI 2024 上，‭‌‌‭‍小红书多模态团队‭‌‌‭‍提出了一种新方法——‭‌‌‭‍可控脑视觉扩散模型（Controllable Mind Visual Diffusion Model，CMVDM）‭‌‌‭‍。‭‌‌‭‍该模型能很好地将 fMRI 信号还原为与原始视觉刺激语义属性一致，空间结构对齐的高质量图片，可以使得生成的图像清晰度更高、也更接近人眼所见的原始图像。‭‌‌‭‍

‭‌‌‭‍具体来说，CMVDM 首先使用属性对齐和辅助网络，从 fMRI 数据中提取语义和轮廓信息。其次，引入一个控制模型并结合残差块，充分利用提取的信息进行图像合成，生成与原始视觉刺激在语义内容和轮廓特征上高度相似的高质量图像。‭‌‌‭‍

‭‌‌‭‍通过大量实验，小红书多模态团队证明了 CMVDM 在可视化质量和技术指标上都优于现有的最先进的方法（SOTA）。‭‌‌‭‍此外，团队还发现大脑的高级视觉皮层（HVC）主要关注视觉刺激的语义信息，而低级视觉皮层（LVC）则主要关注视觉刺激的结构信息。‭‌‌‭‍

‭‌‌‭

理解人类大脑在观察视觉刺激（例如自然图像）时发生的认知过程，一直是神经科学家的主要关注点。客观的视觉刺激和主观的认知活动，都能在大脑的视觉皮层中引发复杂的神经信号传递，从而为更高层次的认知认知和决策过程奠定基础。随着功能性磁共振成像（fMRI）等技术的进步，人们已经能够以更高的精度和更细的粒度捕获实时的大脑活动信号，从而加速了神经科学研究的进程。然而，对于认知神经科学和下游应用（如脑机接口 BCI）来说，解读和重构这些复杂的信号仍然是一个巨大的挑战。‭‌‌‭‍

‭‌‌‭‍早期尝试在分析视觉任务的大脑活动时，主要关注将在人类受试者的大脑活动与观察到的自然图像相匹配，或者重构简单几何形状的视觉模式。这些探索证明了从大脑信号中获取感知图像的语义信息的可行性，然而它们对未见过的语义类别或复杂的重构任务的泛化能力较差。‭‌‌‭‍

‭‌‌‭‍

‭‌‌‭‍近期研究在从大脑信号重构视觉刺激方面取得了重要进展。Roman Beliy、Guy Gaziv 等工作能够生成与原始视觉刺激形状相似的图像，但这些图像存在严重的扭曲和模糊问题。文献 IC-GAN, Mind-Vis 等研究采用了常用的生成模型，如生成对抗网络（GAN）或扩散模型，生成的高质量 RGB 图像在语义上与原始视觉刺激保持一致，条件是对应的 fMRI 信号。然而，如图所示，这些方法在位置一致性上存在问题。总的来说，现有方法未能有效地利用 fMRI 信号中固有的语义和空间特征。‭‌‌‭‍

‭‌‌‭‍为了解决上述问题，我们提出了一种可控脑视觉扩散模型（CMVDM），该模型通过控制网络使扩散模型能够利用提取出可信的语义和轮廓信息，从而完成高度