【ICML2024】揭示大脑中视觉-语言整合的多模态网络

55e55d48193c22dc6357704ce1c51e24.png

来源:专知
本文为论文介绍,建议阅读5分钟我们发现,在我们评估的多模态训练技术变体中,CLIP风格的训练最适合下游神经活动预测。

84131b111e9cf0f2498b85c1a6ae2eee.png

我们使用(多)模态深度神经网络(DNNs)来探测人类大脑中多模态整合的部位,通过预测人类受试者在观看电影时进行的立体脑电图(SEEG)记录来实现这一目标。我们将多模态整合的部位操作化为多模态视觉-语言模型比单模态语言、单模态视觉或线性整合的语言-视觉模型更好地预测记录的区域。我们的目标DNN模型涵盖不同的架构(如卷积网络和Transformer)和多模态训练技术(如交叉注意力和对比学习)。作为关键的启用步骤,我们首先证明了训练过的视觉和语言模型在预测SEEG信号的能力上系统地优于其随机初始化的对应模型。然后,我们将单模态和多模态模型进行比较。由于我们的目标DNN模型通常具有不同的架构、参数数量和训练集(可能掩盖因整合而产生的差异),我们对两个模型(SLIP和SimCLR)进行了受控比较,这两个模型除了输入模态外,其余属性保持相同。通过这种方法,我们确定了大量的神经部位(平均1090个总部位中的141个或12.94%)和大脑区域,在这些区域似乎发生了多模态整合。此外,我们发现,在我们评估的多模态训练技术变体中,CLIP风格的训练最适合下游神经活动预测。

267f814d3d9de926f3019bb7fa258a9d.png

a9c71062e3561c596b81f6829e1037d0.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值