【论文精度】MindShot: Brain Decoding Framework Using Only One Image

Title:MindShot: Brain Decoding Framework Using Only One Image
Doi:https://doi.org/10.48550/arXiv.2405.15278

研究背景

这篇文章属于fMRI大脑解码范畴。大脑解码技术主要是通过分析大脑活动的模式识别个体的思维和感知。大脑解码不仅揭示了大脑复杂的认知过程,也推动了脑机接口领域的发展。大脑解码的技术主要经历了多层预训练DNN(Deep Neutral Network)到生成对抗网络(Generative Adversarial Networks, gan),再到多模态技术的发展,这主要包含了对比学习和扩散模型的发展。就当前而言,大脑解码技术依然面临以下问题。(1)fMRI图像对数据依然缺乏;(2)大脑表征的个体可变性大。当前的解码框架受制于单体受试者的模型范式,是给每个受试者量身定做的,进一步限制了其适用性。针对现有范式,能够实现对新受试者进行少量fMRI图像对的训练来实现视觉重建,是非常有必要的。
然而,要实现这一目标,需要很好地解决两个挑战:(1)过拟合:小规模的训练样本很容易导致过拟合,但这在大脑解码中很突出。(2)缺乏有用的生物引导:用于引导的生物信号不足,使得在少拍场景下很难有效地训练出鲁棒的大脑认知编码器。
为了解决上述问题,本文提出了一种基于傅立叶的跨学科监督框架MindShot。MindShot采用预训练-微调两阶段框架。首先,采用对比学习的方法学习多主体的先验知识,然后利用新个体的少量功能磁共振成像对大脑解码模型进行微调。

研究方法

MindShot的整体框架

MindShot整体框架如图1所示。
在这里插入图片描述
图1:MindShot的整体架构。
MindShot是基于Fourier变换的跨学科监督框架。首先,它使用对比学习从多个主体中获取先验知识。然后,仅使用少量功能磁共振成像图像对大脑解码模型进行微调。

先验知识获取

先验知识的获取主要依靠对比学习实现。首先利用多被试对视觉解码模型进行预训练形成预训练模型[M],其中体素数据为 x 1 , x 2 , . . . { {x}_{1}},{ {x}_{2}},... x1,x2,...,图片数据为 I 1 , I 2 , . . . { {I}_{1}},{ {I}_{2}},... I1,I2,..., 损失函数为 L c { {L}_{c}} Lc。编码器 E b r a i n { {E}_{brain}} Ebrain获得来自多个主体的先验知识。这种结构允许跨多个主题学习共同的语义特征和表征,增强新主题的可转移性。此外,灵活的框架允许在更大的数据集和更多样化的主题上进行预训练,获得更丰富的先验知识。

新受试者的自适应

利用从多个被试大脑解码中获得的先验知识,直接的方法是利用参数的预训练权值,并在所有层打开的情况下进行微调。然而,由于NSD数据集中不同受试者之间的共享图像有限,这种方法缺乏明确的指导,无法充分利用先验知识,特别是考虑到显著的个体差异。信号的频域,提供比原始信号更丰富的信息。如上图1图c所示,首先使用自适应MaxPooling层将新受试者的fMRI体素 x i { {x}_{i}} xi缩放到统一的尺度。随后,一个单独的HRF适配器,系统地模拟了血流动力学反应,应用于纠正受试者之间的偏差,产生体素 x ^ i {\hat x_i} x^i.同时,从预训练对象中随机抽取样本,其对应的fMRI体素 x j { {x}_{j}} xj也被缩小到统一的尺度。然后,利用FFT将它们的体素 x ^ i {\hat x_i} x^i x ^ j {\hat x_j} x^j转换到谱域,分别得到 F ( x i ) F({x_i}) F(xi) F ( x i ) F({x_i}) F(xi)。然后分别计算对应的幅值和相位 A i {A_i} A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值