目录
Abstract
提出了一种基于人脑活动的自由形式VQA估计方法,即大脑解码VQA。该方法可以在观看同一幅图像时实现回答任意来自功能磁共振成像(fMRI)测量的脑活动图像的任意视觉问题。通过一个独特的VQA模型来估计大脑活动中的各种信息,从而实现对图像更细致的理解和复杂的推理。此外,由于fMRI数据集通常很小,本文新使用未在训练阶段使用的无标签图像来提高转换的性能。该方法可以在主体观看图像时回答少量的测量fMRI数据中的视觉问题。
Introduction
虽然正确理解图像的语义信息是一项具有挑战性的任务,但人类可以在大脑中不知不觉地做到这一点。因此,通过提取大脑信号中的语义信息来回答只从人类大脑活动中看到的和想象的问题是可能的。在这一研究领域,functional Magnetic Resonance Imaging (功能磁共振成像, fMRI)经常被用来测量大脑活动。fMRI是一种无损测量工具,与其他无损脑信号测量工具相比有着更高的空间分辨率。此外,据报道,从内容不同的观测图像中可以观察到不同的fMRI信号。这表明fMRI数据包含视觉内容的语义信息。传统方法中一种流行的方法是使用与fMRI数据相对应的图像的基于CNNs得到的特征来估计fMRI数据中的视觉内容。首先,这些方法估计fMRI数据与对应的视觉特征之间的关系,并基于估计的关系将fMRI数据转换为视觉特征。通过将fMRI数据转换为视觉特征,将fMRI数据用于在大规模数据集上预训练的模型变得可能。通过这种方式,从CNNs中提取的视觉特征最近被应用于如识别对象类别或利用fMRI数据重建感知图像的任务。
尽管人脑信号分析已经取得了进展,但在传统方法中仍然存在两个问题:
(1)在处理多任务时是不足和无效的,如同时估计图像中对象的类别和颜色。为了获得关于视觉内容的各种信息,传统方法需要大量对应于所需信息的模型;
(2)fMRI数据的测量要求受试者承担沉重的负担。由于在以前的方法中使用少量的fMRI数据和图像特征对作为训练数据来估计它们之间的关系,因此很难准确地将fMRI数据转换为属于在训练期间未使用的类别的图像的视觉特征。
本文提出了一种全新的脑解码VQA模型,可以估计人们只从fMRI脑活动数据中看到的答案。与传统的针对单个任务的方法不同,本文的脑解码VQA模型可以估计来自fMRI数据的视觉内容的任意多样信息。在所提出的方法中输入fMRI数据和一个关于图像的自由形式的问题,得到一个自然语言答案作为输出,如图。
此外,还新使用无标签图像来使从fMRI数据转换而来的特征更加健壮。注意,邻域特征是从大量额外的无标签图像中获得的,这些图像不用于fMRI数据的测量。这种方法可以更成功地将在训练中没有使用的类别的图像转换为视觉特征。最后,将fMRI数据转化为视觉特征,然后将视觉特征应用到VQA算法中得到输入问题的答案。贡献总结如下:
(1)提出了一种新的脑解码VQA模型,可以通过回答关于来自fMRI数据中的观测图像的任意问题来估计视觉内容的各种信息;
(2)使用视觉特征空间中存在的特征,这些特征是由无标签图像计算的特征组成的。
VQA from fMRI data
该方法包括两个步骤。首先,构造一个fMRI解码器D(·)将fMRI数据转换成视觉特征。然后,将视觉特征和一个自由形式的问题输入到VQA算法中得到相应答案。概述如图。
fMRI Decoder with Utilizing Un-labeled Images
为了估计从fMRI数据中观察到的图像信息,通过fMRI解码器D(·)将fMRI数据转换成视觉特征。fMRI解码器包括两个模块,一个是回归模块,一个是特征转换模块。
首先解释回归模块。给定一幅观察图像和对应fMRI数据,回归模型将fMRI数据转换成视觉特征。这个模块的回归目标是从一个预训练CNN模型得到的视觉特征。视觉特征包含所观察图像的信息,但由于回归模型训练对的数量有限,容易陷入过拟合。因此,原始回归视觉特征在VQA任务中仍然是不足和无效的。为了解决这一问题,本文在特征转换模块中使用了无标签图像。预训练的CNNs可以产生包含丰富图像信息的高级语义特征,提取常被用于无监督和半监督等表示学习方法的特征。假设fMRI数据的视觉特征被用于回答各种类型的问题,本文通过使用在大规模数据集如ImageNet上预训练的模型中的无标签特征来增强视觉特征的潜能。具体地,首先从没有在fMRI数据的测量中和使用预训练CNN的VQA模型的训练中使用的无标签图像中提取高级语义表示特征。在特征转换模块中计算提取的两种视觉特征的欧氏距离。基于欧氏距离选取k个最近邻的高级语义表示特征。然后使用最近邻特征增强来自fMRI数据的视觉特征。虽然在传统方法中为在训练过程中没有使用的类别的图像生成问题的答案是具有挑战性的,但是使用k个选定特征可以解决这一问题。增强后的特征作为后续VQA模型的输入。
VQA from fMRI data
问题特征:GloVe + LSTM
特征融合:串联
Experimental Results
Experimental Conditions
通过观察图像的标签类别与从fMRI数据生成的答案之间的相似性来验证该方法的有效性。
Performance Evaluation
Conclusions
本文提出了脑解码VQA模型。通过VQA模型和半监督方法,从fMRI数据的小数据集中估计视觉内容的各种信息。通过实验验证了该方法的有效性。
本文来自 2020 IEEE International Conference on Image Processing (ICIP)