用于建模人类视觉目标识别的大型且丰富的EEG数据集论文的笔记

最新推荐文章于 2024-10-07 06:31:57 发布

我要学脑机

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量147

点赞数 1

文章标签：人工智能深度学习

原文链接：https://www.sciencedirect.com/science/article/pii/S1053811922008758?via%3Dihub

版权

用于建模人类视觉目标识别的大型且丰富的EEG数据集

Things这个数据的说明
关键字：

人工神经网络

计算神经科学

脑电开放获取数据资源

神经编码模型

视觉物体识别

摘要：

人脑通过运行在毫秒级的线性和非线性变换的多个阶段实现视觉物体识别。为了预测和解释这些快速变化，计算神经科学家采用了机器学习建模技术。然而，最先进的（state-of-the-art）模型需要大量的数据来进行适当的训练，到目前为止，还缺乏大量的大脑数据集，这些数据集广泛地采样了视觉物体识别的时间动态。在这里，我们收集了大量且丰富的高时间分辨率的自然背景下物体图像的EEG响应数据集。该数据集包括10名参与者，每个参与者有82，160次试验，覆盖16，740个图像条件。通过计算建模我们建立了这个数据集的质量。

首先，我们训练了线性化编码模型，成功地合成了任意图像的EEG响应。

其次，我们以零样本的方式正确地识别了记录的EEG数据图像条件，使用EEG合成对数十万个候选图像条件的响应。

第三，我们证明了EEG数据集的高条件数和试次重复都有助于训练好的模型的预测精度。

第四，我们建立了编码模型，其预测结果很好地推广到了新的参与者。

第五，我们展示了对任意输入图像输出EEG响应的随机初始化DNN的完全端到端训练。我们也将该数据集作为一个数据发布

1.介绍

视觉目标识别是人脑在多个线性和非线性阶段进行计算求解的复杂认知功能。通过这些阶段，将简单的视觉特征如方向边缘的表示转化为对象类别的表示。

为了理解这些表征和转换的原理，计算神经科学家建立和使用数学模型来预测大脑对任意视觉刺激的反应，并解释其潜在的神经机制。

这些模型的性能得益于使用大数据集进行训练：例如，深度神经网络( DNNs )。

现有的先进的计算脑视觉模型需要基于数百万计的不同数据点。然而，由于大脑数据获取的困难，神经科学数据集通常包括每个参与者不超过几千次的试验和有限数量的条件。

为了解决当前建模目标的数据饥饿问题，最近采取了开创性的努力来记录功能磁共振成像( functional magnetic resonance imaging，fMRI )对图像的反应的大数据集（2019，2022年有提出和应用）。然而，fMRI数据在提供优异的空间分辨率的同时，缺乏时间分辨率来解析其发生水平的神经动力学。由于神经元在毫秒级尺度上进行交流，因此高时间分辨率的神经数据是构建视觉大脑模型的关键组成部分。

因此，在本研究中，我们收集了大量毫秒分辨率的人脑对自然背景下物体图像反应的脑电数据集。我们广泛抽样了10名被试，每个被试呈现16，740个重复的图片条件.来自THINGS数据库的82，160多个试验,采用时间高效的快速序列视觉呈现( RSVP )范式。刺激起始异步( SOAs )为200ms(1秒5张相似，指代一致的物体)。尽管引入了后向和前向噪声，这些短的SOA对于收集足够大的数据集以利用最先进的机器和深度学习建模技术至关重要。

RSVP范式的介绍

RSVP（Rapid Serial Visual Presentation）范式是一种在心理学和神经科学中常用的实验方法，用于研究人类视觉注意力和信息处理。在 RSVP 范式中，被试被要求在短时间内连续呈现的刺激序列中识别目标刺激。

基本步骤：

呈现刺激序列：在实验中，被试会看到一系列刺激，通常是文字、图像或符号等。这些刺激以极快的速度一个接一个地显示在屏幕上或其他视觉介质上。
目标刺激识别：在刺激序列中，研究者会嵌入一个或多个目标刺激，被试的任务是在刺激序列中尽快识别出目标刺激，并按照实验要求进行反应，比如按下按钮、说出目标刺激的类别等。
刺激参数调节：研究者可以调节刺激的呈现速度、目标刺激的位置、目标刺激与其他刺激之间的间隔等参数，以探究注意力、感知和认知加工的不同方面。
数据分析：研究者收集被试的反应数据，比如识别目标刺激的准确率、反应时间等，然后分析这些数据以研究被试在不同条件下的视觉注意力和信息处理能力。

关键参数

SOA (刺激起始异步)

SOA 表示在一个刺激事件结束后，下一个刺激事件开始之间的时间间隔。它是一种用于控制实验刺激之间时间关系的重要参数。

SOA 在心理学和神经科学实验中经常被使用，特别是在视觉注意力和认知加工方面的实验中。通过调节不同的 SOA，研究者可以探究不同刺激事件之间的时间间隔对被试的认知加工、反应时间和准确率等指标的影响。

例如，在视觉搜索实验中，研究者可能会调节目标刺激和干扰刺激之间的 SOA，以研究不同 SOA 条件下被试的搜索效率。在注意力转移实验中，研究者也可以通过调节目标刺激和提示刺激之间的 SOA，来探究注意力从一个位置转移到另一个位置的时间特性。

SOA 的选择通常取决于实验的具体目的和假设，以及被研究的认知过程的特点。较短的 SOA 可能会导致刺激事件之间的干扰增加，从而影响被试的表现，而较长的 SOA 则可能会导致被试忘记之前的刺激，从而降低任务的复杂度。

总之，SOA 是实验设计中的重要参数，对于控制刺激事件之间的时间间隔并理解认知加工过程的时间特性至关重要。

然后，我们利用数据集前所未有的规模和丰富度来训练和评估基于DNN的线性化和端到端的编码模型（生成模型）？。

构建出了图像和EEG脑电的关联网络。

即合成对任意图像的EEG响应。结果从五个方面展示了数据集的质量及其在计算建模方面的潜力。首先，合成的EEG数据与生物数据具有很强的相似性，即使在单个参与者的水平上也具有稳健的预测。其次，我们构建了零样本识别算法。

零样本识别的一些构造方法

零样本学习（Zero-shot learning）是一种机器学习方法，旨在解决传统监督学习中的样本不足或类别不平衡的问题。在零样本学习中，模型需要在没有见过该类别样本的情况下对新类别进行分类。

以下是一些常见的零样本识别算法：

属性基础的方法（Attribute-based methods）：这种方法将每个类别表示为属性向量的组合，每个属性描述了该类别的某种特征。在训练阶段，模型学习如何将属性向量映射到对应的类别，从而可以在测试时使用未见过的类别属性进行分类。

基于语义嵌入的方法（Semantic embedding-based methods）：这种方法利用类别之间的语义关系来学习类别之间的映射。通常使用词嵌入或语义嵌入模型来表示类别，并通过学习类别之间的嵌入空间来进行分类。

生成式方法（Generative methods）：这种方法尝试生成新类别的样本，然后利用生成的样本进行分类。通常使用生成对抗网络（GANs）或变分自动编码器（VAEs）来生成样本。

迁移学习方法（Transfer learning methods）：这种方法利用已有类别的知识来帮助识别新类别。通常使用预训练的模型来提取特征，并通过微调或其他迁移学习技术来适应新类别。

结构化输出学习方法（Structured output learning methods）：这种方法将类别表示为结构化的输出，例如图或树形结构，从而可以更好地利用类别之间的关系进行分类。

这些方法通常用于解决零样本学习问题，其核心思想是利用已有的知识来帮助模型识别未见过的类别。不同的方法适用于不同的应用场景和数据特点，因此在选择零样本识别算法时需要根据具体情况进行权衡和选择。

即使在非常大的候选图像条件集合中识别时，模型也取得了很高的性能精度：对于200个候选图像条件的集合，81.35 %；对于150000个候选图像条件的集合，21.05 %；对于4514035个候选图像条件的集合，外推精度= 10 %，其中机会≤0.5 %。第三，我们证明了较高的条件数和数据集的重复试验都有助于训练模型的预测精度。第四，我们证明了编码模型的预测可以推广到新的参与者（可推广性）。第五，我们第一次向我们展示了完整的端到端的培训知识，对任意输入图像输出EEG响应的随机初始化DNNs。

我们发布该数据集作为一种工具，以促进计算神经科学的研究，并弥合生物和人工视觉之间的鸿沟。我们相信，这对于通过开发视觉大脑的高时间分辨率计算模型来进一步理解视觉物体识别，以及通过生物智能数据来优化人工智能模型将具有重要的意义。所有用于生成呈现结果的代码都伴随着数据的发布。

2.材料与方法

2.1受试者

10名健康成年人(平均年龄28.5岁, SD = 4 ;女8例,男2例)参与，所有受试者视力或矫正视力正常。均签署知情同意书，并接受经济补偿。程序经柏林自由大学教育与心理学系伦理委员会批准，符合《赫尔辛基宣言》。

2.2刺激

所有图像均来自THINGS Hebart et al , 2019，THINGS数据集的介绍。该数据库包含1854个对象概念中每个自然背景上的对象的12张或更多图像，其中每个概念(例如,羚羊、草莓、T恤)属于27个更高级别的类别(例如,动物、食物、服装等)中的一个。编码模型的建立包括两个阶段：模型训练和模型评价。由于每个阶段都需要独立的数据划分，因此我们将1854个对象概念伪随机划分为不重叠的1654个训练

在这里插入图片描述

和200个测试概念

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在限制条件下，27个更高级别的类别必须在两个分区中保持相同的比例。

然后为每个训练划分概念选取10张图像，为每个测试划分概念选取1张图像，得到16 540个图像条件的训练图像划分( 1654个训练对象概念× 10张图像每个概念= 16540个训练图像条件)和200个图像条件( 200个测试对象概念×每个概念1张图像= 200个测试图像条件)的测试图像划分。

我们使用训练和测试数据分区分别进行编码模型的训练和测试。实验有一个正交目标探测任务(见"实验范式"第2.3节)，作为任务相关的目标刺激我们使用了"玩具故事"人物巴斯光年的10张不同的图片。

**（处理方法）**所有图像均为正方形大小。我们将它们重塑为500 × 500像素，用于EEG数据收集范式。对于DNNs建模，我们将图像重塑为224 × 224像素，并对其进行归一化处理。

2.3实验范式

实验采用RSVP范式

用一个正交的目标探测任务来保证被试对视觉刺激的注意(图1C )。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
10名被试均完成4次等效实验，得到10个数据集，共计16540张训练图像条件，重复4次，200张测试图像条件，重复80次，每个数据集共计( 16540个训练图像条件× 4个训练图像重复) + ( 200个测试图像条件× 80个测试图像重复) = 82160张图像试次。

一个环节共19轮，持续时间均在5 min左右。在前4次试验中，（预实验）我们通过20幅图像的51个快速序列向参与者展示了200个测试图像条件，共进行了4次测试× 51序列/轮× 20幅图/序列= 4080幅图像试验。在接下来的15次试验中，我们通过20幅图像的56个快速序列展示了8270个训练图像条件(所有训练图像条件的一半,因为不同的一半显示在不同的会话上)，共计15次训练试验× 56个序列× 20幅图像= 16800个图像试验。

实验过程

每一个快速序列从750ms的空白屏幕开始，然后每20幅图像以7 °的视角集中呈现100ms，刺激起始异步性( SOA )为200ms，最后以750ms的空白屏幕结束。

眼动信号细节

在每一个快速序列之后，有长达2s的时间，我们指导参与者先眨眼(或做其他任何运动)，然后用按键报告巴斯光年的目标图像是否出现在序列中。这减少了在图像呈现过程中出现眨眼和其他伪影的机会。

图像以伪随机化顺序呈现，每运行6个序列出现1张目标图像。在整个实验过程中，屏幕上都有一个中央靶子牛眼睛注视点( Thaler et al , 2013)，我们要求被试不断地注视它。我们使用Psychtoolbox (布雷纳德, 1997)控制刺激呈现，并在实验过程中记录EEG数据。

此外，我们在四个记录阶段的开始和结束时各收集了5分钟的静息态数据，其中我们指导被试将呈现在灰色背景上的中央公牛眼睛注视目标固定下来，尽量少眨眼，并避免其他面部或身体动作。我们没有对该数据做进一步的预处理和分析。

2.4脑电记录及预处理

脑电的标准

64通道，10-10布局，Brainvision actiCHamp。预处理使用MNE工具包。

我们使用64通道EASYCAP记录EEG数据，电极按照标准10 - 10系统( Nuwer等, 1998)排列，并使用Brainvision actiCHamp放大器。

我们以1000Hz的采样率记录数据，同时进行在线滤波(在0.1 ~ 100Hz之间)和参考(对Fz电极)。我们在Python中进行离线预处理，使用MNE包( Gramfort et al , 2013)。我们将连续的EEG数据划分为从刺激出现前200 ms到刺激出现后800 ms的试次，并通过分别减去每个试验和通道的刺激前间隔时间的平均值来进行基线校正。

之后对划分的试次数据进行下采样到100Hz，选择枕叶和顶叶皮层上覆盖17个通道，用于进一步分析( O1、Oz、O2、PO7、PO3、POz、PO4、PO8、P7、P5、P3、P1、Pz、P2、P4、P6、P8)。

所有包含目标刺激的试次不做进一步分析，我们随机选择并保留每个训练图片条件4个测量重复和每个测试图片条件80个测量重复。接下来，我们将多元噪声归一化(古根莫斯等, 2018)独立地应用到每个记录会话的数据中。我们没有应用任何进一步的伪影校正方法。对每个被试进行预处理，得到( 16540训练图像条件× 4条件重复次数× 17个脑电通道× 100个脑电时间点)形状的脑电生物训练( Bio Train )数据矩阵和( 200个测试图像条件× 80个条件重复× 17个脑电通道× 100个脑电时间点)形状的生物测试(生物检验)数据矩阵。我们分别使用BioTrain和生物检验脑电数据进行编码模型的训练和测试。

2.5DNN模型的使用

我们使用四种不同的DNN建立了EEG视觉响应的线性编码模型( Wu et al . , 2006 ; Kay et al , 2008 ; Naselaris et al , 2011 ; van Gerven , 2017 ;克里格斯科特和道格拉斯, 2019)：

AlexNet (克里哲夫斯基, 2014)，一个由5个卷积层和3个全连接层组成的有监督前馈神经网络，该网络在2012年获得了Imagenet大规模视觉识别挑战；

ResNet-50 ( He et al , 2016)是一个有监督的前馈50层神经网络，层与层之间在不同深度上有捷径连接；CORnet-S ( Kubilius et al , 2019)，4个卷积层和1个全连接层的有监督深度循环神经网络；

MoCo ( He et al , 2020)，一种前馈ResNet - 50架构，以自监督的方式进行训练。它们都在ILSVRC - 2012训练图像划分(鲁萨科夫斯基等, 2015)上进行过物体分类预训练。

2.6EEG视觉响应编码模型的线性化

使用DNN对图像进行非线性变换

建立线性化编码模型的第一步是利用DNNs将图像输入空间非线性变换到特征空间。DNNs的特征空间由其特征映射、输入图像的逐层表示(非线性变换)给出。

为了获得训练和测试特征图，我们将训练和测试图像分别输入到每个DNN中，并将其各层的向量化图像表示相加。

我们从层maxpool1，maxpool2，ReLU3，ReLU4，maxpool5，ReLU6，ReLU7和fc8中提取了AlexNet的特征图；ResNet-50 ’ s和MoCo ’ s的特征图分别来自它们的四个块的最后一层，以及来自解码器层；CORnet-S '特征图来自最后一层的区域V1，V2 (在两个时间点上)，V4 (在所有4个时间点)，IT (在两个时间点上)和来自解码器层。

然后，我们使用训练特征图的均值和标准差，将训练和测试数据的附加特征图标准化为样本(图像)维度上每个特征的零均值和单位方差。最后，我们使用了非线性主成分分析(使用4次多项式核在训练特征图上计算)的Scikit - learn (佩德雷戈萨等, 2011)实现，将训练和测试图像的特征图都减少到1000个成分。对于每个DNN模型，得到了( 16 , 540训练图像条件× 1000特征)形状的训练特征图矩阵和( 200个测试图像条件× 1000个特征)形状的测试特征图矩阵。

线性映射DNN特征空间到EEG神经空间

建立线性化编码模型的第二步是将DNNs的特征空间线性映射到EEG神经空间，有效地预测EEG对图像的响应。我们对每个参与者独立地执行这种线性映射，DNN模型和EEG特征( (即,对于17个EEG通道中的每个通道( c ) × 100个EEG时间点( t ) = 1700个EEG特征)。我们以DNNs的训练特征图作为预测因子，对应的Bio Train数据(在图像条件下重复平均)作为准则，拟合线性回归的权值Wt，c：在训练过程中，回归权值学习给定图像的DNN特征图与该图像的脑电响应之间存在的线性关系(图2A )。没有使用正则化技术。然后将Wt，c与DNNs的测试特征图相乘。对于每个参与者和DNN，这导致了线性化的合成测试( SynTest ) ( 200张测试图像条件× 17个脑电通道× 100个脑电时间点)形状的EEG数据矩阵(图2B )。

图2 .线性化编码算法。为了便于可视化，这里和下图中我们省略了EEG条件重复维度。( A )通过训练图像条件获得训练DNN特征图和BioTrain脑电数据，并利用它们建立EEG视觉响应的线性化编码模型。对于每个EEG特征(时间点( t)和通道( c )的组合，我们以相应的单特征BioTrain数据为标准，以训练图像DNN特征图为预测，估计线性回归的权重 $W_{t,c}$ 。( B )为了获得线性化的SynTest脑电数据，我们提取了测试图像的DNN特征图，并与估计的 $W_{t,c}$ 相乘。

2.7相关性(Correlation)

我们使用Pearson相关性来评估每个参与者和DNN的线性化SynTest EEG数据与相应生物检验数据的相似程度

，从而量化编码模型的预测能力(图4A )。我们通过对40个图像条件重复(我们用另外40次重复来估计噪声上限,见"噪声上限计算" 2.11节)的生物检验数据进行平均来开始分析，得到的生物检验数据矩阵在形状上等效于线性化的Syn Test数据矩阵( 200张测试图像条件× 17个脑电通道× 100个脑电时间点)。接下来，我们在EEG通道和时间点上实现了嵌套循环。

在每个循环迭代中，我们索引了包含200个测试图像条件的EEG通道( c )和时间点( t )的200维生物检验数据向量，并将其与相应的200维线性化SynTest数据向量相关联。该过程产生了形状( 17个EEG通道× 100个EEG时间点)的皮尔逊相关系数矩阵。最后，我们将EEG通道上的皮尔逊相关系数矩阵平均，得到每个参与者与DNN的长度为( 100个EEG时间点)的相关性结果向量。

2.8对解码(Pairwise decoding)

这种分析的理由是，在生物检验数据上训练的分类器是否能够将其性能推广到线性化的Syn Test数据。这是(到相关性分析)的一种补充方式，用于评估线性化Syn Test数据与生物检验数据之间的相似性，从而评估编码模型的预测能力(图5A )。我们从平均40个生物检验数据图像条件开始分析，将(我们用另外40个重复来估计噪声天花板,见"噪声天花板计算" 2.11节)重复为10个伪试验，每个重复4次，产生一个形状( 200张测试图片条件× 10张图片条件伪试次× 17个脑电通道× 100个脑电时间点)的矩阵。

接下来，我们使用用于训练线性SVM的伪试验，使用它们的EEG通道向量( 17种成分)，在每对200生物检验数据图像条件(共计19 , 900个图像条件对)之间进行二分类。然后，我们将训练好的分类器在相应的对SynTest数据图像条件下进行了测试。我们对每个EEG时间点( t )独立地进行了两两解码分析，得到了一个形状为( 19 , 900个图像条件对× 100个脑电时间点)的解码准确性分数矩阵。然后，我们将图像条件对之间的解码准确率得分矩阵进行平均，得到每个参与者和DNN的长度为( 100个EEG时间点)的成对解码结果向量。

2.9零样本识别

在这项分析中，我们利用了线性化编码模型的预测能力，以零样本的方式识别生物检验数据图像条件，即在没有事先训练( Kay et al , 2008 ;泽利格et al , 2018 ; Horikawa and Kamitani , 2017)的情况下识别任意图像条件(图6A )。我们使用线性化的Syn Test数据和一个多达15万个候选图像条件的额外合成EEG数据集来识别每个生物检验数据图像条件。这15万张图像条件来自ILSVRC - 2012的(鲁萨科夫斯基等, 2015)验证集( 50 , 000) plus测试集( 100 , 000)。

我们按照上述相同的步骤将它们合成为相应的EEG响应，从而得到形状为( 15万张图像条件× 17个脑电通道× 100个脑电时间点)的合成Imagenet ( SynImagenet )数据矩阵。零样本识别分析包括两个步骤：特征选择和识别。

在特征选择步骤中，我们使用训练数据只挑选最相关的EEG特征(在所有17个EEG通道中× 100个EEG时间点= 1700个EEG特征)。我们对16，540张训练图像的EEG响应进行了合成，得到了形状为( 16 , 540训练图像条件× 17个脑电通道× 100个脑电时间点)的合成训练( SynTrain )数据矩阵。接下来，我们将每个SynTrain数据特征(在跨越16 , 540个训练图像条件下,具有皮尔逊相关性)与对应的BioTrain数据特征(在图像条件下重复平均)进行关联。

然后只选取300个生物检验数据、Lineariz -神经影像264 ( 2022 ) 119754ing SynTest数据和SynImagenet数据EEG特征对应的300个最高关联分数，得到( 200个测试图像条件× 80个条件重复× 300个脑电特征)形状的生物检验数据矩阵、( 200个测试图像条件× 300个脑电特征)形状的Linearize SynTest数据矩阵和( 15万张图像条件× 300个脑电特征)形状的SynImagenet数据矩阵。

在识别步骤中，我们首先对所有80个图像条件重复的生物检验数据进行平均：这将为200个图像条件中的每个条件产生300个成分的特征向量。接下来，我们将(通过Pearson相关分析)中每个生物检验数据图像条件的特征向量与所有候选图像条件的特征向量相关联：线性化的Syn Test数据图像条件加上变化量的Syn Imagenet数据图像条件。我们将SynImagenet候选图像条件的集合大小从0增加到150000，步骤为1000图像(共计151组数据)，其中0对应于仅使用线性化的SynTest数据候选图像条件，并在每个集合大小下执行零样本识别。

在每个SynImagenet数据集大小下，如果其特征向量与对应线性化SynTest数据图像条件的特征向量之间的相关系数高于其特征向量与所有其他候选线性化SynTest数据和SynImagenet数据图像条件的特征向量之间的相关系数，则认为生物检验数据图像条件被正确识别。

因此，我们通过所有200张生物检验图像中正确分类图像的比率来计算零样本识别精度，得到一个长度为( 151个候选图像集大小)的零样本识别结果向量。我们迭代识别步骤100次，同时总是在每个设定大小下随机选择不同的SynImagenet数据图像条件，然后在100次迭代中对结果进行平均。

为了外推较大候选图像集尺寸时识别精度的下降，我们将幂律函数拟合到每个参与者的结果中。幂律函数被定义为：

$f (x) = ax^b$

其中x是图像集大小，a和b是函数拟合过程中学习的常数，f ( x )是预测的零样本识别精度。我们使用100个SynImagenet集合大小从50，200到150，200张图像(以及它们相应的识别精度)拟合该函数，然后用它来外推识别精度下降到10 %和0.5 %所需的图像集大小。

2.10EEG视觉响应的端到端编码模型

我们将端到端的编码模型(Seeliger et al , 2021 ; Khosla et al , 2021 ; Allen et al , 2022 ; Khosla and Wehbe , 2022 ; St Yves et al , 2022)建立在随机初始化的AlexNet架构上，该架构一旦训练好，就可以预测测试图像的脑电响应(图9A )。对于端到端的训练，我们随机选取( 100个图像概念× 10个样例/概念= 1000图像条件)作为验证分区，其余训练图像条件作为训练分区，测试图像条件作为测试分区。

我们训练了两类模型：预测单个时间点脑电通道活动的AlexNets和预测所有时间点脑电通道活动的AlexNets。为了使模型的输出与EEG数据的维度相匹配，我们将AlexNet的1000个神经元的输出层替换为17个神经元的输出层(在单时间点模型中,每个神经元代表17个EEG通道中的一个)，或1700个神经元的输出层(在全时间点模型的情况下,其中每个神经元代表1700个EEG数据特征之一)。

接下来，我们随机为每个参与者和EEG时间点( t ) (在单时间点模型的情况下)，或每个参与者(在全时间点模型的情况下)初始化独立的AlexNet实例。我们使用Pytorch ( Paszke等, 2019)在一个回归任务上训练AlexNets：给定输入的训练图像和对应的目标BioTrain EEG数据(在图像条件的重复中平均)，模型必须优化它们的权重，以最小化它们的预测与BioTrain数据之间的均方误差。

对于训练，我们使用了64张图像的批大小和Adam优化器，其学习率为10 - 5，权重衰减项为0，其余超参数的默认值。我们在50个数据epochs上训练模型，并使用导致最低验证损失的历元的模型权重来合成测试图像条件下的EEG响应。对于每个参与者，这就产生了形状为( 200张测试图像条件× 17个脑电通道× 100个脑电时间点)的端到端的SynTest数据矩阵。

2.11噪声顶峰计算

我们计算了相关性和成对解码分析的噪声上限，以估计在生物检验数据中给定噪声水平的理论最大结果：更高的噪声上限表明更高的数据信噪比。如果Syn Test数据的结果达到这一理论最大值，则编码模型成功解释了所有可以解释的生物检验数据方差。如果不是这样，进一步的模型改进可能会导致更准确的神经数据预测。

对于噪声上限估计，我们将生物检验数据随机分为两个互不重叠的分区，每个分区40个图像条件重复，其中第一个分区对应于上述相关和成对解码分析中使用的生物检验数据图像条件的40个重复。然后将Syn Test数据替换为第二个生物检验数据分区(通过图像条件重复的平均值)，进行这两项分析。这就得到了噪声上限的下界估计。为了计算上界估计值，我们将Syn Test数据替换为所有80个图像条件重复的生物检验数据的平均值，并重申了这两个分析。

我们假设真实的噪声上限介于下界估计和上界估计之间。为了避免生物检验数据重复的一个特定配置导致结果有偏，我们将相关性和成对解码分析迭代100次，同时始终为两个生物检验数据分区选择不同的重复，然后在100次迭代中对结果进行平均。

2.12统计检验

为了评估相关性、两两解码和零样本识别分析的统计显著性，我们使用单样本单边t检验对所有结果进行了偶然性检验。在此，理由是以95 %或更高的(即P值< 0.05)的置信度拒绝分析结果处于机会水平的零假设H0，从而支持结果显著高于机会的实验假设H1。不同分析中的机会水平不同：相关性为0；50 %；( 1 / ( 200个测试图像条件+ N个ILSVRC - 2012图像条件) )中的零样本识别(其中N的变化范围为0 ~ 15万)。

当使用不同数量的训练数据来分析线性化编码模型的预测准确性时，我们使用了双向重复测量ANOVA来拒绝图像条件数量和/或条件重复对预测准确性没有显著影响的零假设H0，以及重复测量双侧t检验来拒绝训练图像条件和条件重复之间的影响没有显著差异的零假设H0。在进行显著性检验之前，我们对相关分数进行了Fisher变换。

我们通过对结果的P值施加保守的邦费罗尼-校正来控制家族错误率，以校正相关性和成对解码分析中的EEG时间点数( N = 100)，线性化编码模型预测精度随训练图像条件和条件重复数变化的分析中的训练数据量四分位数( N = 4)，以及零样本识别分析中的候选图像集大小( N = 151)。

为了计算每个统计量的置信区间，我们通过对参与者特定的结果进行替换抽样，创建了10，000个自举样本。这就得到了结果的经验分布，从中我们取了95 %的置信区间。

3.结论

3.1自然背景下物体视觉响应的EEG数据集庞大而丰富

我们使用RSVP范式( Intraub , 1981 ;凯泽斯et al , 2001 ; Grootwagers et al , 2019)采集了自然背景下物体图像视觉反应的大脑电数据集(图1C )。该数据集包含来自THINGS数据库( Hebart et al , 2019)的10名被试观看16540张训练图像条件(图1A )和200张测试图像条件(图1B )的数据。为了允许无偏建模，训练和测试图像没有任何重叠的对象概念。每个训练图像条件呈现4次，每个测试图像条件呈现80次，每个被试在4次实验中总共进行了82160次图像试次。在这里插入图片描述

由于RSVP范式的时间效率，我们收集的数据比用于建模( Cichy et al , 2014 ;泽利格et al , 2018)的其他典型的近期M / EEG数据集多达15倍。这使得我们可以在大幅减少实验时间的同时，对单个参与者进行广泛采样。被试完成目标觉察任务的概率远高于(平均准确率= 99.55 % , SD = 0.41 , P < 0.05 ,单样本单边t检验)，说明200 ms的刺激呈现异步足以告知被试对图像内容的有意识视觉感知。

在预处理过程中，我们将EEG记录从- 200 ms到800 ms的图像起始点进行了逐次剔除，将得到的图像历元试次降采样到100个时间点，并且只保留了17个枕区和顶区通道。作为所有进一步数据评估的基础，我们将每个参与者的EEG记录汇总成形状为( 16540训练图像条件× 4条件重复次数× 17个脑电通道× 100个脑电时间点)的生物训练( BioTrain )数据矩阵和形状为( 200个测试图像条件× 80个条件重复× 17个脑电通道× 100个脑电时间点)的生物测试(生物检验)数据矩阵。

我们通过在图像条件和重复维度上对脑电响应进行平均，并在时间上对产生的事件相关电位( ERPs )进行可视化，定性地检查了EEG响应。被试1的ERPs每200 ms出现一次活动高峰，与RSVP范式的SOAs一致(图3A )。峰值的振幅随着时间的推移而减小，表明在RSVP序列中存在神经习惯化过程(图3B )。所有其他被试的ERPs见附图。1和2 .提供这种EEG数据的原始和预处理形式是该资源的主要贡献。

在这里插入图片描述

图3 .生物检验数据、AlexNet线性化SynTest数据和AlexNet端到端SynTest数据(训练好的DNNs可以一次性预测所有EEG时间点)的ERPs，通过对图像条件和重复次数的EEG信号取平均值获得。生物和合成数据的ERPs在很大程度上是重叠的。( A )代表被试(编号1 )的单通道ERPs和( B )通道平均ERPs。

3.2通过对编码模型进行线性化处理，可以很好地预测生物检验脑电数据

然后，我们评估了该数据集对于开发视觉大脑计算模型的适用性。我们分别使用训练数据和测试数据来建立和评估预测个体被试对任意图片( Wu et al . , 2006 ; Kay et al , 2008 ; Naselaris et al , 2011 ; van Gerven , 2017 ;克里格斯科特和道格拉斯, 2019)的脑电视觉反应的线性化编码模型。我们的编码算法基于深度神经网络( deep neural networks，DNNs )，连接主义模型在过去10年中在预测人类和非人类灵长类视觉大脑反应( Cadieu et al . , 2014 ; Yamins et al . , 2014 ; G ü l ü和van Gerven , 2015 ; Storrs et al , 2021)方面表现优异。

编码模型的建立包括两个步骤。

第一步，使用4个在ILSVRC - 2012 (鲁萨科夫斯基等, 2015)上预训练的DNN对图像像素值进行非线性变换，这4个DNN常用于建模大脑响应：AlexNet (克里哲夫斯基, 2014)、ResNet - 50 ( He et al , 2016)、CORnet - S ( Kubilius et al , 2019)和Mo Co ( He et al , 2020)。对每个DNN分别输入训练图像和测试图像，提取各层对应的特征图，将各层数据相加，利用主成分分析( principal component analysis，PCA )将其降采样为1000个主成分,从而得到训练DNN形状( 16 , 540训练图像条件× 1000特征)的特征图矩阵和形状( 200个测试图像条件× 1000个特征)的测试DNN特征图矩阵。

在第二步中，我们通过线性组合每个DNN的训练特征图来拟合几个独立预测每个EEG特征对训练图像的响应(即每个时间点组合的EEG活动( t )和通道( c )的线性回归的权重 $W t$ ，c (图2A )。然后将学习到的 $W t$ ，c与测试DNN特征图相乘，得到线性化的合成测试( SynTest ) ( 200张测试图像条件× 17个脑电通道× 100个脑电时间点)形状的EEG数据矩阵(图2B )。在这个过程中，我们得到了每个参与者和DNN的不同的线性化SynTest数据的实例。定性检验发现，AlexNet线性化Syn Test数据ERPs (通过对图像条件维度上的信号求平均得到)与生物检验数据ERPs高度重叠(图3 )。

为了定量评估线性化编码模型的预测能力，我们通过皮尔逊相关性估计了线性化SynTest数据与生物检验数据之间的相似性(图4A )。将每个线性化的SynTest数据EEG特征(即每个EEG时间点的组合( t )和通道( c ) )与对应的生物检验数据特征(在200幅测试图像条件下)进行相关，得到形状为( 17个EEG通道× 100个EEG时间点)的相关系数矩阵。然后，我们将这个矩阵在通道维度上平均，得到一个具有100个分量的相关系数结果向量，每个EEG时间点一个。

在这里插入图片描述

作为评估线性化编码模型预测能力的补充方法，我们通过解码量化了线性化SynTest数据和生物检验数据之间的相似性(图5A )。解码是计算神经科学中一种常用的方法，它利用每个实验条件的试次之间存在的相似信息来对神经数据(海恩斯和里斯, 2006 ; Mur et al , 2009)进行分类。如果线性化的SynTest数据和生物检验数据具有相似的信息，那么在生物检验数据上训练的解码算法也会将其性能推广到线性化的SynTest数据。我们通过成对解码进行测试：训练线性支持向量机( SVMs )，在200个生物检验数据图像条件的每一对之间进行二分类，然后在相应的线性化Syn Test数据图像条件的成对上进行测试。我们对每个时间点( t )独立地进行了这种分析，得到了形状为( 19 , 900个图像条件对× 100个脑电时间点)的解码精度矩阵。然后将该矩阵在图像条件对维度上平均，得到一个包含100个成分的解码精度结果向量，每个EEG时间点一个。
在这里插入图片描述

我们观察到，在刺激开始后60毫秒，所有参与者的平均相关结果开始显著，并在800毫秒( P < 0.05 , Fisher ’ s z转换后单样本单边t检验,邦费罗尼校正)时显著高于偶然性，直到EEG周期结束。所有DNNs在刺激呈现后110 ms出现显著相关峰，其中AlexNet、ResNet - 50、CORnet - S和Mo Co的相关系数分别为0.67、0.66、0.67和0.66 ( P < 0.05 , Fisher ’ s z转换后单样本单边t检验,邦费罗尼校正)，机会水平为0 (图4B )。非通道平均的相关性结果在枕区和顶枕区通道(附图3)中最高。为了深入了解线性化编码算法，我们根据三种不同的方法建立了编码模型，并通过相关性分析对它们进行了评估。首先，我们使用各个DNN层的PCA降采样特征图训练编码模型。EEG响应( < 200ms)的初始部分由早期的DNN层更好地预测，而EEG响应( > 200 ms)的后期部分由中/高DNN层(附图4)更好地预测，这符合人与机器视觉( Yamins et al , 2014 ; Cichy et al , 2016 ;泽利格et al , 2018 ; G ? ü和van Gerven , 2015)的层次对应关系的观点。此外，不同层级的编码表现似乎在刺激呈现后100 ms左右差异最大，这表明不同层级的编码处理低层视觉特征表现差异最大。其次，使用不同PCA分量数量的DNN特征图训练编码模型，发现在[ 100 500 ] PCA分量范围内预测精度略有提高，在[ 500 2000 ] PCA分量(附图5)范围内预测精度几乎相同。
在这里插入图片描述

图4 .通过相关性分析评价线性化编码模型的预测精度。( A )将线性化Syn Test EEG数据特征(时间点( t)和通道( c )的每个组合与对应的生物检验EEG数据特征组合在200个测试图像条件下进行相关，然后对跨通道的相关系数进行平均。这导致了每个时间点(红色部分在玩具图中的相关结果)的一个相关性评分。( B )被试间平均的相关结果。线性Syn Test数据与生物检验数据从刺激出现后60 ms开始显著相关，直到脑电历元( P < 0.05 ,经Fisher ’ s z转换后单样本单边t检验,邦费罗尼校正)结束，峰值在110 ms。©个体参与者的结果。误差限反映95 %的置信区间。星号的行表示显著的时间点( P < 0.05 ,经Fisher ’ s z转换后进行单样本单边t检验,邦费罗尼校正)。在灰度中，是噪声上限的下界和上界之间的区域，黑色虚线表示图像呈现的开始，黑色虚线表示没有实验效应的机会水平。

这表明大部分被解释的EEG变异性是由少量( < 100 )独立的DNN特征维度所解释的。第三，我们使用未训练的DNN的特征图训练编码模型。令人惊讶的是，我们发现未训练网络解释了(附图6)的显著部分，特别是在刺激开始后100毫秒左右的时间点，这表明相当数量的早期脑电响应可以由未训练DNNs ( Cichy et al , 2016 ; Dosovitskiy et al , 2020)的结构中已经存在的感应偏差来解释。

同样，在刺激开始后60ms，所有参与者的平均解码结果开始显著，显著效应一直持续到800ms ( P < 0.05 ,单样本单边t检验,邦费罗尼校正)的EEG阶段结束。所有DNN在刺激呈现后100 ~ 110 ms出现显著的解码峰值，Alex Net、Res Net - 50、CORnet - S和Mo Co的解码正确率分别为90.31 %、88.52 %、91.03 %和88.21 % ( P < 0.05 ,单样本单边t检验,邦费罗尼校正)，概率水平为50 % (图5B )。所有参与者都得出了质量相似的结果(图。4C、5C)。总的来说，这些结果表明，线性化编码模型成功地预测了EEG数据，其鲁棒性和显著性与生物数据相似。此外，他们表明每个参与者的神经响应可以被独立地一致预测，从而突出了我们的EEG数据集所包含的视觉信息的质量，以及其在开发视觉大脑的新的高时间分辨率模型和理论方面的潜力。

3.3使用多达150，200张候选图像的合成数据，以零样本的方式显著识别生物检验数据

先前的分析表明，我们的线性化编码模型合成的EEG数据与生物数据非常相似。在这里，我们探索了是否可以利用这种高预测精度来构建算法，以零样本的方式识别生物检验数据的图像条件，即在没有先验训练的情况下识别任意图像条件。如果可能的话，这将有助于建立能够识别潜在无限的神经数据条件的模型，而这些数据条件从未被训练过( Kay et al , 2008 ;泽利格et al , 2018 ; Horikawa and Kamitani , 2017) (图6A )。为了进行识别，我们使用了线性化的SynTest和合成的Imagenet ( SynImagenet )数据，其中SynImagenet由来自ILSVRC - 2012图像集(鲁萨科夫斯基等, 2015)的150000张验证和测试图像的合成EEG响应组成，组织在形状为( 15万张图像条件× 17个脑电通道× 100个脑电时间点)的数据矩阵中。重要的是，这些图像与记录EEG数据的图像集没有重叠。进一步的分析包括两个步骤：特征选择和识别。

在特征选择阶段，我们保留了编码模型预测最好的300个EEG通道和时间点，将EEG数据缩小到这些特征中，提高了识别精度。具体来说，我们对16，540张训练图像的EEG响应进行了合成，得到了形状为( 16 , 540训练图像条件× 17个脑电通道× 100个脑电时间点)的合成训练( SynTrain )数据矩阵。然后我们将每一个BioTrain数据特征(即,每个EEG通道和EEG时间点的组合)与对应的SynTrain数据特征(在跨越16 , 540张训练图像的条件下)进行相关性分析，只保留相关性得分最高的300个对应的线性化SynTest、生物检验和SynImagenet数据脑电特征。这样就得到了每个图像条件下300个分量的特征向量。最佳特征多出现在刺激起始(附图7)后70ms至400ms之间的枕区和顶枕区通道。

在识别步骤中，我们将每个生物检验数据图像条件的特征向量与所有候选图像条件的特征向量相关联，其中候选图像条件对应于线性化的Syn Test数据图像条件加上不同数量的Syn Imagenet数据图像条件。我们以1000张图片(共计151组数据)为步长，将SynImagenet候选图像条件的集合大小从0增加到150000，并在每个集合大小下进行识别。在每个设定大小下，如果生物检验数据图像条件的特征向量与对应的线性化Syn Test数据图像条件的特征向量之间的相关系数高于其特征向量与所有其他候选图像条件的特征向量之间的相关系数，则认为该生物检验数据图像条件被正确识别。我们通过成功解码的图像条件在所有200生物检验图像条件中的比率来计算识别精度，得到一个包含151个分量的零样本识别结果向量，每个分量对应一个候选图像集大小。正确线性化SynTest数据图像条件落在三个或十个最相关图像条件内的结果可以在附图中看到。9 ~ 12 .

在每个设定大小下，如果生物检验数据图像条件的特征向量与对应的线性化Syn Test数据图像条件的特征向量之间的相关系数高于其特征向量与所有其他候选图像条件的特征向量之间的相关系数，则认为该生物检验数据图像条件被正确识别。对于所有SynImagenet集大小( P < 0.05 ,单样本单边t检验,邦费罗尼校正)，参与者平均的零样本识别结果是重要的。在SynImagenet集大小为0 (对应于仅使用200个线性化的Syn Test数据图像条件作为候选图像条件)的情况下，分别使用AlexNet、ResNet - 50、CORnet - S和MoCo对生物检验数据图像条件进行识别，准确率分别为 74.75%, 75.9%, 81.35%, 70.6%,其中，机会水平等于1 / 200测试图像条件= 0.5 %。随着SynImagenet集合规模的增大，辨识精度单调递减。在SynImagenet集大小为150，000 (对应于使用200个线性化的Syn Test数据加上15万个Syn Imagenet数据图像条件作为候选图像条件)的情况下，分别使用AlexNet、ResNet - 50、CORnetS和MoCo对生物检验数据图像条件进行识别，准确率分别为15.4%, 16.25%, 21.05%, 12.40%,其中，机会水平等于1 / ( 200张测试图像条件+ 15万张ILSVRC - 2012图像条件) < 10-5 % (图6B )。重要的是，即使在Syn Test数据图像条件未被识别的情况下，我们的算法也常常从概念上和视觉上选择与正确图像条件(附图13)相似的候选图像条件。

为了将识别精度外推到可能更大的候选图像集大小，我们对结果拟合了幂律函数。我们将所有参与者的外推结果进行平均，发现当候选图像集大小为AlexNet 816，918，ResNet-50 759，895，CORnet - S 4，514，036和MoCo 355，826时，识别准确率将保持在10 %以上；当候选图像集大小为AlexNet $10^{11.25}$ ，ResNet-50 $10^{10.14}$ ，CORnet - S $10^{13.02}$ 和MoCo (附图8) $10^{9.04}$ 时，识别准确率将保持在0.5 % (原始机会水平)以上。所有参与者都得到了相似的结果(图6C )。这些结果表明，我们的数据集允许建立算法，以零样本的方式，可靠地识别数百万之间的任意神经数据条件.
在这里插入图片描述

3.4训练图像条件的数量和条件的重复次数都对建模质量有贡献

为了了解我们的EEG数据集的哪些方面有助于其成功建模，我们检查了线性化编码模型的预测精度，作为它们训练的试验数量的函数。训练试次的数量由两个因素决定：图像条件的数量和每个图像条件的脑电重复次数。这两个因素可能以不同的方式改善神经响应的建模，因为高数量的图像条件导致更丰富的训练集，更全面地采样视觉下的表征空间，而高数量的条件重复增加了训练集的信噪比( SNR )。

为了排除这两个因素的影响，我们使用不同四分位数的训练图像条件( 4135、8270、12 , 405、16 , 540)和条件重复( 1、2、3、4)来训练线性化编码模型，并通过相关性分析来测试它们的预测结果。我们对参与者、EEG特征(所有通道;时间点在60 - 500ms之间)和DNN模型的平均相关性结果进行了方差分析，并观察到图像条件数和条件重复数的显著影响，以及两个因素的显著交互作用( P < 0.05 ,经Fisher ’ s z变换后进行两因素重复测量方差分析) (图7A )。所有参与者都得出了类似的结果(附图14)。这说明图像条件数量和条件重复次数都提高了神经数据的建模效果。

然后，我们询问这两个因素中哪个因素对线性化编码模型的预测精度贡献更大。为此，我们比较了重复次数或条件不同，但试验总数相同的情况下的模型预测准确性。由于我们有四个试验重复，我们将训练试验的总量分为四分位数(占总训练试次的25 %、50 %、75 %和100 %)。在每个四分位数上，我们使用所有图像条件和条件重复的四分位数百分比来训练线性化编码模型，并通过相关性分析来测试它们的预测。

例如，在第一个四分位数上，我们使用所有图像条件和一个条件重复来训练线性化编码模型，对应于总训练数据的25 %。为了比较，我们重复了相同的程序，同时使用所有条件重复和图像条件的四分位数百分比。对参与者、EEG特征(所有通道;时间点在60 - 500ms之间)和DNNs的平均相关性结果表明，使用所有图像条件(和条件重复的四分位数)比使用所有条件重复(和图像条件的四分位数) ( P < 0.05 , Fisher ’ s z转换后重复测量双侧t检验,邦费罗尼校正)的预测精度更高(图7B )。所有参与者都得出了类似的结果(附图15)。这表明，虽然这两个因素都提高了神经数据的建模，但图像条件的数量在这里更大程度上如此。

3.5线性化编码模型的预测在参与者之间泛化

接下来，我们探索了我们的线性化编码模型的预测是否可以推广到新的参与者。我们询问：在不使用被试的任何数据进行编码模型训练的情况下，我们能否准确地合成被试的脑电反应?如果可能的话，我们的数据集可以作为一个有用的基准，用于开发和评估跨参与者( Koyamada等, 2015 ; Haxby et al , 2020 ;理查德等, 2020 ; Kwon et al . , 2019 ;张杰等, 2021)的EEG数据的方法。为了验证这一点，我们在所有减1个参与者的平均SynTrain EEG数据上训练了线性化编码模型(图8A )，并通过相关性和成对解码分析测试了它们对剩余参与者的生物检验数据的预测(图8B )。我们对所有参与者重复了这一过程。

当对所有参与者的皮尔逊相关系数进行平均时，我们观察到线性化的SynTest数据和生物检验数据之间的相关性在刺激开始后60毫秒开始显著，并且在800毫秒( P < 0.05 , Fisher ’ s z转换后单样本单边t检验,邦费罗尼校正)的EEG阶段结束时仍然显著高于偶然值。所有DNNs在刺激呈现后130 ms出现显著相关峰，其中AlexNet、ResNet - 50、CORnet - S和Mo Co的相关系数分别为0.45、0.45、0.45、0.44 ( P < 0.05 , Fisher ’ s z转换后单样本单边t检验,邦费罗尼校正)，机会水平为0 (图8C )。同样，在刺激开始后60ms，所有参与者的平均解码准确率开始显著，显著影响一直持续到800ms ( P < 0.05 ,单样本单边t检验,邦费罗尼校正)的EEG阶段结束.所有DNN在刺激开始后130 ms出现显著的解码峰值，其中AlexNet、ResNet - 50、CORnet - S和MoCo的解码准确率分别为67.40 %、66.58 %、67.58 %、66.20 % ( P < 0.05 ,单样本单边t检验,邦费罗尼校正)，机会水平为50 % (图8D )。在这两个分析中，所有参与者都得出了定性相似的结果(附图。16和17 )。这表明我们的EEG数据集是一个合适的测试环境，可以对不同参与者的EEG数据进行泛化和组合。
在这里插入图片描述

3.6 通过基于AlexNet架构的端到端编码模型成功预测了生物检验脑电数据

到目前为止，我们通过线性化编码框架来预测合成数据，该框架依赖于在图像分类任务上预训练的DNN。另一种编码方式，称为端到端编码方式(泽利格et al , 2021 ; Khosla et al , 2021 ; Allen et al , 2022)，是基于从头开始训练的DNN来预测对任意图像的神经响应。这种在模型学习过程中直接注入大脑数据的方式可能会导致DNNs具有更符合视觉大脑( Sinz et al . , 2019 ; Allen et al , 2022)特性的内部表示。然而，除了(泽利格et al , 2021 ; Khosla et al , 2021 ; Allen et al , 2022 ; Khosla and Wehbe , 2022 ; St-Yves et al , 2022)之外，由于训练一个DNN所需要的大量数据，加之现有大脑数据集的规模较小，端到端的编码模型的开发一直令人望而却步。因此，在最后的分析中，我们利用EEG数据集的庞大性和丰富性，为每个参与者独立地训练随机初始化的AlexNet架构，以合成对图像的EEG响应。我们训练了端到端的模型，即( i )每个模型预测一个时间点的通道活性，( ii )每个模型预测所有时间点的通道活性。我们首先将AlexNet的1000个神经元输出层替换为17个神经元输出层(在单时间点模型中,每个神经元对应17个EEG通道中的一个)或1700个神经元输出层(对于全时间点模型,其中每个神经元对应1700个EEG数据特征中的一个)。然后，对于每个参与者和EEG时间点( t ) (单时间点模型)，或者对于每个参与者(所有时间点模型)，我们使用训练图像作为输入，相应的BioTrain数据作为输出目标，训练一个模型来预测视觉刺激的多通道EEG响应(图9A )。我们部署了训练好的网络来合成200张测试图像的EEG响应。与线性化的Syn Test数据类似，端到端的Syn Test数据ERPs与生物检验数据ERPs高度重叠(图3 )。最后，我们通过相关性分析和成对解码分析评估了端到端编码模型的预测准确性(图9B )。

我们观察到，在刺激开始后60ms，所有参与者的平均相关结果开始显著，相关系数在110ms达到峰值0.68 (单时间点模型)和0.63 (全时间点模型)，直到650ms ( P < 0.05 , Fisher ’ s z -变换后单样本单边t检验, Bonferroni校正) (图9C )。非通道平均的相关性结果在枕区和顶枕区通道(附图18)中最高。类似地，被试平均的两两解码结果在刺激呈现后60 ms开始显著，解码正确率在100 ms达到峰值，分别为91.43 % (单时点模型)和86.58 % (全时点模型)，直到670 ms ( P < 0.05 ,单样本单边t检验, Bonferroni校正)才有显著影响(图9D )。所有参与者都得出了质量相似的结果(附图。19和20 )。编码单个时间点和所有时间点的模型具有相似的预测精度，其中单个时间点的模型具有较高的预测精度。编码预测的改进可能来自于递归模型，这些模型在其结构中包含了EEG信号的时间维度，例如递归或长短期记忆网络。这证明了我们的EEG数据集能够以端到端的方式成功地训练DNN，为大脑数据和深度学习模型之间的更强共生关系铺平了道路，这既有利于有兴趣建立更好的大脑模型的神经科学家(泽利格et al , 2021 ; Khosla et al , 2021 ; Allen et al , 2022)，也有利于有兴趣通过生物智能( Sinz等, 2019 ; Hassabis等, 2017 ; Ullman , 2019 ; Toneva和Wehbe , 2019 ; Yang等, 2022 ;达佩洛等, 2022)的归纳偏差来创建性能更好、更像大脑的人工智能算法的计算机科学家。
在这里插入图片描述

4.讨论

4.1总结

我们使用RSVP范式( Intraub , 1981 ;凯泽斯et al , 2001 ; Grootwagers et al , 2019)收集了大量丰富的自然背景下真实世界物体图像的神经响应的EEG数据集，并将其作为促进视觉神经科学和计算机视觉研究的工具。通过计算建模，我们从5个方面建立了该数据集的质量。

首先，我们训练了线性编码模型( Wu et al . , 2006 ; Kay et al , 2008 ; Naselaris et al , 2011 ; van Gerven , 2017 ;克里格斯科特和道格拉斯, 2019)，该模型成功地合成了任意图像的EEG响应。

其次，我们以零样本的方式( Kay et al . , 2008 ;泽利格et al . , 2018 ; Horikawa and Kamitani , 2017)正确地识别了记录的EEG数据图像条件，使用对数十万个候选图像条件的EEG合成响应。

第三，我们证明了EEG数据集的高条件数和试次重复都有助于训练好的模型的预测精度。

第四，我们建立了编码模型，其预测结果很好地推广到新的参与者。

第五，我们展示了对任意输入图像输出EEG响应的随机初始化DNN的完全端到端训练(泽利格et al , 2021 ; Khosla et al , 2021 ; Allen et al , 2022)。

4.2大规模数据集的好处

在过去的几年里，认知神经科学家们已经大幅度地增加了他们的记录范围，从几十种刺激的数据集到包含每位参与者几千种刺激的数据集( Chang et al . , 2019 ; Naselaris et al , 2021 ; Allen et al , 2022)。相比于前人，这些大数据集更加全面地对视觉空间进行采样，并与现代数据饥饿的机器学习算法进行更好的交互。在这种精神下，我们对10名参与者进行了广泛抽样，共进行了82，160次试验，涵盖了16，740个图像条件，并展示了这种前所未有的规模如何有助于高建模性能。

我们发布了数据的原始格式和预处理格式，以便于建模，使不同分析视角的研究人员能够立即以他们喜欢的方式使用数据集。我们相信，这个数据集的庞大对于有兴趣进一步改进视觉大脑理论和模型的神经科学家，以及有兴趣通过生物视觉约束( Sinz等, 2019 ; Hassabis等, 2017 ; Ullman , 2019 ; Toneva和Wehbe , 2019 ; Yang等, 2022 ;达佩洛等, 2022)改进机器视觉模型的计算机科学家来说，都是非常有希望的。

4.3线性编码模型

我们通过构建预测任意图像的EEG视觉响应的线性化编码算法( Wu et al . , 2006 ; Kay et al , 2008 ; Naselaris et al , 2011 ; van Gerven , 2017 ;克里格斯科特和道格拉斯, 2019)展示了该数据集建模视觉响应的潜力。线性化的编码模型合成的数据在所有参与者中与生物模型非常相似，不仅在其**单变量激活( ERPs )方面，而且在其多变量活动模式(正如相关、解码和识别分析所证明的那样)**中包含的视觉信息方面也至关重要。

这些结果突出了EEG数据集的信号质量，使其成为测试现有视觉机制假设的有前途的候选者，并为开发新的高时间分辨率模型和能够预测、解码甚至解释视觉物体识别的视觉神经动力学理论提供了可能。

我们使用4种不同的DNN构建线性化编码模型，研究不同架构(前馈网络vs .残差网络vs .循环网络)和学习算法(有监督vs .自监督)的差异并没有导致大脑预测精度的质变( Storrs et al，2021 )；然而，尽管预测精度是一个重要的评估指标，但不同的DNN是如何做出预测( Schyns et al , 2022)的并不清楚（解释性）。例如，他们是否使用输入图像的不同部分?或者他们是基于不同的视觉表征/变换来告知他们的预测?我们相信，解决这些(和其他)未被探索的问题将使DNNs作为大脑的模型具有更好的理解和可解释性，而这反过来又将导致具有更高预测和解释力的大脑模型的工程。

正如预期的那样，我们的编码算法的预测精度没有达到噪声上限水平(附图。21和22 )，这表明我们的数据集非常适合用于进一步的模型改进。有趣的是，我们发现建模精度在时间上并不均匀：在图像开始后的前100 ms内，预测精度和噪声上限之间的差异较小，并在200 - 220 ms达到峰值，这表明在视觉处理的早期阶段，使用的四种DNN与大脑更相似。

这就需要在未来的模型构建中进行改进，以更紧密地匹配大脑在所有时间点的内部表征。在我们的线性化编码建模结果中的两个观察暗示了实现这一目标的潜在有希望的方向。首先，我们发现训练后的DNNs在预测EEG信号方面只比未训练的DNNs相对更好，尤其是在较早的时间点(100 ms ) (与Cichy et al . , 2016一致)：因此，大量的早期EEG响应是由未训练的DNNs结构中建立的感应偏差来解释的。

其次，对于早期EEG时间点(认为代表了最初的低级视觉加工)，预测精度(在训练和未训练的DNN中)更接近噪声上限。考虑到这两点，我们提出大脑预测的改进可能来自于将具有更多高层/语义表征的DNNs结合起来。同方向的改进也可能来自于研究训练和未训练网络之间的差异，以及这些差异如何有助于更好的大脑预测。

例如，DNNs的视觉表征在训练后如何变化?哪些方面的神经表征是由训练好的模型预测的，而不是由未训练好的模型预测的?回答这些问题可以使人们对计算机视觉算法必须是大脑的适当模型的必要和充分的性质有新的认识。

4.4图像条件数和条件重复数都提高了建模质量

通过构建不同训练数据量的线性化编码算法，发现编码模型的预测精度受EEG图像条件(在更高的程度上)和测量值重复次数(到较低的程度)的共同影响。在未达到噪声上限下界估计的情况下，这些发现表明，线性化编码模型的预测精度要么得益于更多的训练数据试次，要么得益于具有相同试次但具有更多图像条件和更少重复测量的训练数据集。基于这些观察，对于未来的数据集，我们建议优先考虑刺激条件的数量，而不是重复测量的数量。

4.5端到端的编码

迄今为止，由于神经数据集规模的限制，计算神经科学家大多使用预训练的DNNs ( Cadieu et al , 2014 ; Yamins et al , 2014 ; Glü & van Gerven , 2015 ; Naselaris et al , 2015 ;泽利格et al , 2018)对大脑数据进行建模。在这里，我们利用数据集的庞大性和丰富性，首次用EEG数据证明了训练一个随机初始化的AlexNet架构以端到端的方式预测对任意图像的神经响应的可行性(泽利格et al , 2021 ; Khosla et al , 2021 ; Allen et al , 2022 ; Khosla and Wehbe , 2022 ; St-Yves et al , 2022)。与线性化编码相比，DNN表征偏向于可能不能很好地反映视觉大脑表征的任意任务，端到端的编码方法为直接使用大脑数据训练复杂的计算算法打开了大门，有可能导致模型更接近于视觉系统( Sinz et al . , 2019 ; Allen et al , 2022)的内部表征。为了深入了解视觉大脑的算法，这些模型的内部表示可以可视化( Zeiler和Fergus , 2014)，解释( Bau et al , 2020)，甚至在模型(例如,比较两个DNN分别训练预测EEG和fMRI数据的特征)之间进行比较。用神经数据端到端的训练DNNs，反过来会使计算机科学家在假设增加计算机模型的类脑性可以提高其在人类优于( Sinz等, 2019 ; Hassabis等, 2017 ; Ullman , 2019 ; Toneva和Wehbe , 2019 ; Yang等, 2022 ;达佩洛等, 2022)的任务中的表现的前提下，将生物系统的神经表征作为归纳偏差来提高人工系统的性能。例如，计算机视觉模型可以通过多任务学习(卡鲁阿纳、1997)、迁移学习(潘文卿和杨汝岱, 2009)或多模态学习( Ngiam et al , 2011)训练范式来对神经数据进行偏置。

4.6零样本识别

神经科学中的解码模型通常只在几个数据条件之间进行分类，而依靠来自这些相同条件的数据样本来训练(海恩斯和里斯, 2006 ; Mur et al , 2009)。因此，他们的表现未能推广到不同大脑状态的无限空间。在这里，我们利用合成EEG响应的预测精度来构建零样本识别算法，该算法可以识别潜在的无限神经数据图像条件，而不需要事先训练( Kay et al . , 2008 ;泽利格et al . , 2018 ; Horikawa and Kamitani , 2017)。

通过该框架，我们在几十万个候选图像条件中识别出了生物检验的脑电图像条件。甚至当识别算法虽然我们没有将正确的图像条件分配给生物脑电反应，但我们发现它在正确的图像条件中选择了相当数量的(最高可达45 %)作为前三个或十个选择(附图。9 ~ 12)，并且它在概念上和视觉上经常选择与正确的图像条件(附图13)相似的图像条件。这些结果表明，我们的数据集是未来创建零样本识别算法的良好起点，不仅可以用于研究，也可以用于尖端的脑机接口( BCI )技术( Abiri等, 2019 ; Petit等, 2021)。

4.7参与者间的预测

通常，神经科学中的计算模型是在单个参与者( Kay et al , 2008 ; Yamins et al , 2014 ; G ? ü and van Gerven , 2015 ;泽利格et al , 2018 ; Horikawa and Kamitani , 2017)的数据上进行训练和评估的。虽然这种方法很好地受到每个个体(查尔斯特等, 2014)的神经特性的启发，但它不能产生利用多个大脑共享信息的模型。在这里，我们展示了我们的编码模型很好地预测了不符合设定的参与者，这表明我们的数据集是一个合适的测试平台，用于推广和组合跨参与者的神经数据，以及BCI技术，这些技术可以很容易地用于新的参与者，而不需要校准( Haxby et al，2020 )；理查德等，2020；Kwon et al .

4.8数据集限制

我们的数据集的一个主要限制是RSVP范式( Intraub , 1981 ;凯泽斯et al , 2001 ; Grootwagers et al , 2019)的极短( 200 ms )刺激起始异步( SOAs )引入的后向和前向噪声。在一个给定的EEG图像试验中，前向噪声来自于前一个试验中正在进行的神经活动，而后向噪声来自于图像开始后的260ms左右，这相当于SOA的长度加上视觉信息从视网膜到视皮层所需的时间。

尽管存在这些噪声源，我们发现视觉反应在整个EEG阶段都被成功预测，这表明图像的视觉表征保持在视觉记忆中，并且在被下面的图像( King & Wyart , 2021)掩蔽后仍在继续处理。我们认为，在几个重复测量中平均EEG图像条件可以降低噪声，并且由于在视觉( Thorpe et al , 1996 ;鲁斯莱et al , 2002)的前150毫秒内可以实现检测和识别物体类别所需的神经处理，因此后向噪声进一步减轻。

第二个限制涉及数据集的生态有效性。所使用的刺激图片由中央凹处呈现的自然背景下杂乱无章的物体组成。此外，要求被试不断注视中央注视目标。这并不能真实地代表人类的视觉，当物体处于视野的边缘时，在杂乱的场景中，在眼睛运动的同时，物体也被感知和识别。

第三，我们的样本偏向于年轻人，可能无法代表婴幼儿、儿童或老年人的视觉客体识别过程。未来的研究可以通过收集被试在整个生命周期中的大量视觉反应来研究与年龄相关的潜在差异。尽管存在这些局限性，我们的结果为在更自然的观看条件下提供大量记录的EEG响应的研究铺平了道路。

4.9为THINGS倡议做出贡献

视觉大脑是由数十亿个神经元组成的集合，具有很高的空间和时间精度。然而，目前的神经记录模式和单一的实验室努力都无法捕获这种复杂性。

这激发了在不同成像模式和实验室之间集成数据的需求。为了应对这一挑战，THINGS倡议提倡使用THINGS数据库来收集和共享行为和神经科学数据集，在视觉研究人员中使用同一组图像(这里也使用了这组图像) ( https://thingsinitiative.org/).

我们通过提供丰富的高时间分辨率EEG数据，以模态内和模态间的方式补充其他数据集，为该倡议做出了贡献。作为模态内方式的一个例子，Grootwagers和合作者最近发表了一个来自THINGS数据库( Grootwager et al , 2022)的图像视觉反应的EEG数据集。虽然他们的数据集包含更多的参与者和图像条件，但我们的数据集提供了更多的重复测量，更长的图像呈现潜伏期，并根据由此产生的高信噪比对数据集的潜力进行了广泛的评估。

研究者可以根据自己实验的性质、要求和限制，在两者之间进行选择。作为模态间风格的一个例子，Hebart和合作者从THINGS数据库( Hebart et al , 2022)中记录了一个大规模的fMRI / MEG图像反应数据集。我们的数据可以通过表征相似性分析( Kriegeskorte et al , 2008 ; Cichy et al , 2014 , 2016 ; KhalighRazavi et al , 2017)等建模框架，使得从EEG域到fMRI和MEG域的桥梁，从而促进对视觉物体识别神经基础的更完整的理解。

5.结论

我们认为我们的EEG数据集是计算神经科学家和计算机科学家的一个有价值的工具。我们相信，它的庞大性、丰富性和质量将有助于人们更深入地理解视觉加工的神经机制，并建立更多类似人类的人工智能模型。

可用的数据

原始和预处理后的脑电数据集、静息态脑电数据、刺激图像集和提取的DNN特征图均可在OSF上获取https:/doi.org/10.17605/OSF.IO/3JK45

可用的代码

https: //github.com/gifale95/eeg_encoding

致谢

。我们相信，它的庞大性、丰富性和质量将有助于人们更深入地理解视觉加工的神经机制，并建立更多类似人类的人工智能模型。

可用的数据

原始和预处理后的脑电数据集、静息态脑电数据、刺激图像集和提取的DNN特征图均可在OSF上获取https:/doi.org/10.17605/OSF.IO/3JK45

可用的代码

https: //github.com/gifale95/eeg_encoding

致谢

A . T . G .获得爱因斯坦神经科学中心的博士学位支持。G . R .得到了Alfons和耶特鲁德Kassel基金会的支持。R. M. C.得到德国研究理事会( DFG )资助Nos . ( CI 241 / 1-1 , CI 241 / 3-1 , CI 241 / 1-7)和欧洲研究理事会( ERC )开始授予( ERC - StG - 2018 - 803370)。我们感谢Martin Hebart对THINGS数据库的支持。我们感谢Daniel Kaiser和肯德里克Kay对该手稿的有益评论。感谢柏林弗雷大学ZEDAT的HPC Service提供的计算时间。