长文解读|深度学习+EEG时频空特征用于跨任务的心理负荷量评估

本文链接：https://blog.csdn.net/weixin_41880581/article/details/113006812

《本文同步发布于“脑之说”微信公众号，欢迎搜索关注~~》

心理负荷量显著影响特定任务中的人员绩效。适当的心理负荷量可以提高工作效率。但是，沉重的脑力劳动会降低人类的记忆力，反应能力和操作能力。由于某些职业的脑力劳动量很大，例如飞行员，士兵，机组人员和外科医生，沉重的脑力劳动会导致严重的后果。因此，心理负荷量评估仍然是一个重要的课题。
近年来，基于脑电图的脑力负荷评估取得了重要成就。但是，出色的结果通常集中于在同一天完成单一心理任务的单个被试。这些方法在实验室外的效果不佳。要达到好的效果，必须克服三个问题，即跨被试，跨日期和跨任务问题。所谓的跨任务问题就是算法可以在不同的实验范式中评估心理负荷量。跨任务的心理负荷量评估，难点在于找到可以推广到各种心理任务的高鲁棒性的EEG特征。特征集通常使用两种方法生成：手工设计特征和通过深度学习提取特征。
最常用的手工设计特征是从5个频段（δ[1-3 Hz]，θ[5-8 Hz]，α[9-12 Hz]，β[14-31 Hz]和γ[33-42 Hz]）和2个扩展频带（γ1 [33-57 Hz]和γ2 [63-99 Hz]）中提取的功率谱密度（PSD）特征。事件相关电位（ERP）和事件相关同步/去同步（ERS/ ERD）也广泛用于对EEG信号进行分类。
但是，这些手工设计的特征对于跨任务问题未取得可使用的结果。原因除了设计的特征不适合之外，各种任务下的心理负荷量级别的定义也可能导致误导分类结果，心理负荷量状况的标签可能被主观地和错误地定义。
近期，来自清华大学精密仪器系精密测量技术与仪器国家重点实验室的研究团队在IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING杂志发表题目为《Learning Spatial–Spectral–Temporal EEG Features With Recurrent 3D Convolutional Neural Networks for Cross-Task Mental Workload Assessment》研究论文，其设计了两种不同类型的心理负荷量实验，通过行为数据验证了实验的有效性，并提出了一个基于深度循环神经网络（RNN）和3D卷积神经网络的级联网络结构（R3DCNN），以在没有先验知识的情况下学习跨任务的脑电特征。

材料
1.被试

清华大学的20名右利手受试者（男性，平均年龄25.1±2.2岁）参加了心理负荷评估实验。所有受试者均符合正常或矫正视力的纳入标准。他们没有任何可能引起疲劳或焦虑的疾病，被要求戒除咖啡因和酒精，并且至少需要两天每晚至少有8小时的常规睡眠时间。实验获得了清华大学机构审查委员会（IRB）的批准，并获得了所有受试者的书面知情同意。
2.实验设计
受试者参加不同难度级别的任务，以诱导不同的心理负荷量。本研究使用空间 n-back和算术任务作为探索跨任务心理工作量评估的示例。所有被试都应参加这两个任务。图1显示了实验流程。
在这里插入图片描述
图1

a.空间 n-back 任务：如图 1a所示，在执行空间 n-back 任务时，受试者应将注意力集中在计算机的屏幕上，该屏幕在一个稳定的正方形的 9个位置显示一个移动的蓝色块。在一个 trial 中，该蓝色块显示在屏幕上 0.5 秒钟，然后消失 2.5 秒钟，然后移动到下一个位置。如果当前 trial 是目标，则要求被试立即用惯用的手按键盘上的 A 键。在空间 1-、2-和 3-back 任务中，分别将目标定义为当前trial 的蓝色块位置与前面第一，第二和第三次 trial 中蓝色块的位置相同。随着更多的n-back,任务难度也随之增加，因为必须记住并分析更多的位置信息。这项研究仅采用空间 1-back 和 3-back 任务，以确保由这两个任务引起的精神工作量水平是可区分的。
b.算术任务：如图 1b 所示，正方形的中间每过 3 秒出现 1 到 9 之间的两个数字。与空间 n-back 任务一样，两个数字显示 0.5 秒，然后消失 2.5 秒。如果当前帧正确，则被试仍需要按键盘上的A键。对于算术 1-frame 任务，如果两个数字的和为10，则表示当前帧正确。对于算术 2-frame 任务，受试者需要记住并计算两个连续 trial 的和，如果答案是 20 则当前帧正确。
为了收集受试者的表现数据并使他们专注于任务，将按下A键的操作设置为对正确刺激的反馈。值得注意的是，由于EEG信号较弱，人体中的任何活动都可能诱发严重的伪迹。为了最大程度地减少这种影响，将键盘的A键放在被试的右手下方。因此，他们只需移动手指即可完成实验。还要求他们避免任何多余的身体活动，以最大程度地减少肌电图（EMG）的影响。
如图1所示，整个实验包括一个空间 n-back 任务 session 和一个算术任务 session。每个 session 由一项容易的任务和一项艰巨的任务组成，分别可以诱发低和高的心理工作量。所有被试都参加这两个 session，包括四个任务。每个任务有 200 次 trial，其中 30％被随机设置为正确答案，每次 trial 持续 3 秒。
3.数据记录

在整个实验过程中，由SYMTOPInstrument Co. Ltd.制造的 16 通道EEG电极帽用于收集 EEG 信号。数据记录系统基于 SYMTOP 提供的软件开发套件（SDK）在 LabVIEW 2012 中实现。用标准 10-20 系统以1000 Hz 的采样率记录 EEG 信号。基于耳朵上两个参考电极的平均值，电极阻抗应保持在 5 k 欧以下。除 EEG 信号外，受试者的反应时间和按键反应也被记录为评估心理负荷水平的辅助客观指标。

方法
1.信号处理

在这项研究中，首先在 0.5 Hz 至 40 Hz 的频带内对EEG信号进行带通滤波，以去除直流分量和高频噪声，然后在 EEGLAB 中以 256 Hz 降采样。预处理后，每个被试都有4个EEG信号。根据视觉刺激，每个 EEG 记录都分为 200 个 epochs。尽管在某些epochs 中被试未做出正确响应，但所有 epochs（包括错误的响应）都用于生成数据集，因为完整的数据可以使算法不论被试响应是否正确，都能尽快评估心理工作量。
2.数据扩充
大量数据对于深度学习至关重要。因为在任务期间收集 EEG 信号既费时又费力，所以获取大量 EEG 信号不切实际。数据扩充可以解决数据不足的问题，并提高深度学习的性能。两种最常用的 EEG 数据增强方法是滑动窗口和添加噪声。首先，采用滑动窗口方法来丰富脑电图样本。作者将窗口大小设置为 20 个epochs，将步幅设置为 1个 epoch，从 1 个被试获得 724 个样本（181×4），总共有14480个样本（724×20）。之后，作者将高斯噪声添加到 EEG 信号以进一步扩展数据集。但是，发现添加噪声不会显着提高性能。因此，该研究仅将滑动窗口方法用于数据扩充。
3.多通道脑电图的维数转换
a. 三维转换：如图 2 所示，根据 Morlet 小波变换计算从 1 Hz 到 40 Hz的每个 1Hz 频带的频域表示。该操作基于 16 个 EEG 通道生成 16×40数据矩阵。每个频带的功率分布（表示为数据矩阵的一行（16×1））可以根据 16 个电极的位置来构造地形图。堆叠 40 个地形图后，利用三次样条插值将每个圆形EEG地形图转换为 20×20 矩形，这更适合 CNN。最后，该方法将 16 通道EEG 信号的每个分段转换为 20×20×40 的EEG 立方体。
在这里插入图片描述
图2

b. EEG序列提取：

脑电图的三维转换允许深度模型从空间和频谱域中学习特征。然而，没有时间特性的分类器仍然是有缺陷的。先前的研究尝试使用RNN来学习不同EEG帧之间的时间依赖性。但是，相邻帧之间的时间间隔至少为0.5秒。如此长的间隔将导致较低的时间分辨率，并且时间信息的细节可能会被忽略。因此，这篇文章提出了一种脑电图序列提取方法，以使RNN能够以毫秒为单位学习脑电图变化，这有助于改善跨任务心理工作量评估。
EEG 序列转换包括三个步骤：
首先，基于带有 Morlet 小波（周期= 1，winsize = 256）的EEGLAB 的时频分解工具，绘制与事件相关的谱摄动（ERSP）图像。对于一个 EEG 样本，每个通道可以生成一个 ERSP 图像。图3显示了根据一个样本的 16 个通道的16 个 ERSP 图像。其次，视觉刺激的时刻在时间轴上标记为 0 ms。因为ERP 的波动发生在刺激的 1000 毫秒之内，所以该研究以50 毫秒的步长从 0 毫秒到 1000 毫秒提取了 ERSP图像数据，从而得到 20 帧。每帧的数据大小为 16×40，表示特定时刻来自 40 个频带的 16 个 EEG 通道的功率分布。每行（16×1）可以绘制为特定频段的地形图。接下来，上面介绍的三维转换用于将每个帧转换为EEG 立方体。然后，由 20 个多维数据集组成的序列使RNN 可以学习时间特征以进行跨任务的心理工作量评估。
在这里插入图片描述
图3

4.R3DCNN的结构
该研究将RNN 和 3D CNN 结构（R3DCNN）连接起来，以从空间，频谱和时间维度分别学习 EEG 特征。如图 4 所示，网络由卷积层，循环层和全连接层组成。每个输入样本都是 20 帧的序列，由 EEG 立方体组成。
首先，应将所有 EEG 立方体输入 3D 卷积层中，以提取基于 3D 卷积核的空间和频谱特征。但是，传统的 3D 卷积核可能会引入大量参数，这可能会导致过度拟合问题和高计算成本。为了减少参数的数量，该研究使用伪 3D 卷积架构替换了传统 3D 内核，并强制所有帧共享权重。在 3D CNN 结构的末尾，每个帧的特征图都将扩展为 1D 特征向量。该结构生成 20 个特征向量，用于 RNN 层中的进一步学习。
其次，由双向 LSTM 单元组成的堆叠式 2 层 RNN 结构提取了 EEG 的时间特性。在这项研究中，双向 LSTM 单元学习了前向和后向的脑电图波动，并且优于单向 LSTM 单元。
最后，将 RNN 结构的第一个和最后一个输出送入具有S型（sigmoid）激活函数的全连接层中进行分类。
a.3D CNN 结构配置：3D CNN 可以以大量参数为代价从多个维度学习特征。为了克服这个问题，这篇文章利用伪 3D CNN 从空间和频谱维度提取具有较少参数的脑电特征。伪 3D 操作可以分为两个阶段，将 2D空间滤波器（S）和 1D 频率滤波器（F）堆叠在一起，以学习 3D 特性。因为对于 EEG 分析，指数线性单位（ELU）的准确性要高于其他激活函数，所以该研究采用 ELU 来激活所有卷积层的输出。尽管深层的 CNN 具有很强的学习能力，但深层的脑电图分类并不能表现的更好。之前的一些研究测试了 VGG 和 AlexNet 架构，后者获得了更高的准确性。因此，R3DCNN 的最终深层 3D CNN 结构参考了去除了全连接层的 AlexNet。表1显示了每个帧的3D CNN 配置；所有帧共享相同的权重。在 3D CNN 结构中，每个 3D 卷积运算都由 2 个卷积层组成。网络首先基于 2D 卷积层学习空间域中的功率谱分布，然后利用 1D 卷积层学习频域分布。在卷积层和池化层之后，整形层将每个帧的输出转换为一维矢量（长度= 3×3×3×64 = 1728）。如图 3 和图 4 所示，此结构最终生成 20 个向量，这些向量表示从 0 毫秒到 1000 毫秒的 EEG 特征。
在这里插入图片描述
表1

图4

b.RNN 结构配置：从空间和频谱域中学习EEG特征后，RNN 结构将用于学习时间特性。RNN 有一个隐藏层来处理流信息，即根据先前的信息，学习当前的表示形式。传统的 RNN 单元常有梯度消失等问题，这限制了其在 EEG 长序列信号的应用，简单的 RNN 单元可能无法满足 EEG 分析的要求。所幸目前已经有 LSTM 单元来解决此问题。LSTM 具有更强的记忆能力，并部分消除了梯度消失的风险。（详细原理请自行查阅相关文章，此处不再赘述）传统的 LSTM 单元是单向的，它仅允许信息从 t = 0 到 t = T 流动。这对脑电图的分析是不适合的。例如，必须根据之前和之后的信号来区分ERP 的波峰。双向 LSTM 具有两个隐藏的 LSTM 层，使RNN可以同时在正向和反向学习，并已用于自动睡眠阶段评分。
该研究堆叠了 2 个双向LSTM层，从而产生了一个深RNN结构，如图4所示。在重塑了深 CNN 结构的输出后，将20帧一维矢量（20×1728）放置在RNN结构中。表2显示了深度RNN和全连接的结构配置。第二个双向LSTM层的第一个和最后一个单元输出用作具有S形激活功能的全连接层的输入。最后，使用交叉熵损失函数进行优化。
在这里插入图片描述
表2

c.网络训练：由于低或高工作负载的分类是一个二分类问题，因此，利用S 形函数（sigmoid）和交叉熵损失函数分别激活和优化最终输出。为了最小化损失函数，使用Adam 优化器，其学习速率为 lr = 10-4，并且有 2个衰减参数 β1= 0.9 和 β2= 0.999 。由于引入了大量参数来学习空间频谱时空脑电图特征，因此采用了 dropout 和早停法来避免过度拟合的问题。这项研究在每个最大池化和全连接层之后采用的 dropout 概率为 0.5。在所有卷积层之后还使用批处理归一化（BN）技术，以加速收敛并提高分类精度。TensorFlow 框架用于基于 NVIDIA Tesla K80 训练和测试模型。

结果
1.行为数据

表3 给出了主观和客观指标，以验证这两种类型任务的有效性，表4 给出了相应的配对 t 检验结果。该结果不仅证实了简单任务和困难任务是可以区分的，而且证明了两种任务的难度可以很好地匹配。
在这里插入图片描述
表3

表4

2.与基准方法的比较
R3DCNN 与基准方法之间的比较如图 6 和表 5 所示。在这项研究中，手工制作的特征为之前的研究中提出的PSD特征和ERP特征。从图表中可以看出，R3DCNN 方法的明显增加了分类精确度，由此可以得出深度神经网络可以为跨各种心理任务学习鲁棒的 EEG 特征提供一种新技术。
在这里插入图片描述
表5

图5

3.与其他深度学习网络的比较
表6展示了任意两种方法之间的明显差异，表明深度神经网络的设计对分类结果有重大影响。如表5所示，R3DCNN 的性能优于其他所有模型，与Deep CNN，Deep LSTM 和Mixed 相比，其平均精度分别提高了0.047、0.095 和 0.173。表6 证明了与其他三个深层模型相比，R3DCNN 的显着改进（p <0.05）。结果证实了该结构从空间，频谱和时间维度上同时学习鲁棒的脑电特征的有效性。
在这里插入图片描述
表6

4.与其他跨任务研究的比较

对于跨任务挑战，以前的研究人员已经提出了改善心理工作量评估的方法。他们的工作激发了后来的研究人员更深入地分析跨任务问题。表7列出了这篇文章方法的结果以及其他四个相关的跨任务研究。注意，这些研究方法之间的任务设计和难度级别有所不同，表 7 不能提供严格的比较。但是，它对最近的研究进行了定性描述，这对于分析跨任务问题非常重要。
在这里插入图片描述
表7

如表 7所示，包括 PSD 和 ERS / ERD 在内的人工设计特征已用于解决跨任务问题。但是，分类精度接近随机概率。这些特征不足以应对跨任务分类。脑电皮质连通性，一种新的脑电特征提取方法，准确率高达87％，这个新的 EEG 特征有望解决跨任务问题。
与上述工作相比，R3DCNN 具有三个优点：
首先，R3DCNN 的泛化能力很强。R3DCNN 的训练和测试数据来自不同的任务。因此，R3DCNN 有望为新任务数据分类。其次，R3DCNN 具有较高的分类精度。最后，对所学特征的解释可以提供一个新的视角来理解脑电图振荡。另外，分类耗时少于 50 毫秒，对于实时应用而言足够快。

讨论
1.按键的影响
与其他相关方法相比，R3DCNN 在分类准确性方面具有优势。但是，数据记录期间的干扰可能会影响分类结果。为了让参与者更多地参与实验并记录他们的表现，作者要求他们在屏幕上显示正确的刺激音时按键盘上的 A 键。值得注意的是，按键行为会影响低和高心理工作量的二分类任务。
首先，它会由于人体运动和肌肉收缩而诱发伪迹。其次，在移动右手手指时，假想运动是不可避免的，这也可能污染 EEG 记录。第三，表3和表4验证了简单任务和困难任务之间反应时间的差异。R3DCNN 可能会将精神工作量的分类与按动作的时间延迟的分类混淆。因此，精神工作量分类结果可能与肌肉收缩，运动想象和按压动作的时间延迟的分类混合在一起。有必要在不受按键影响的前提下分析 R3DCNN 的性能。
因为只有30％的刺激设置为正确，所以按压操作不会污染近70％的EEG时期，作者选择这一部分数据重新生成数据集，并删除那些受试者按键的trial。表 8 显示了新数据集的 R3DCNN 的分类性能。
如表 8 所示，不按键 epochs 的平均分类准确率达到89.4％，与使用所有epochs 相比准确率提高了。删除可能受按键污染的 epochs 后，数据集分布变得更一致，从而改善了结果。因此，在此实验中，无论按下键盘如何，R3DCNN都可以达到令人满意的精度。
在这里插入图片描述
表8

特征图的可视化
除了提高准确性外，确定模型如何学习脑电图特征也很重要。反卷积被广泛用于可视化学习过程。这项研究利用这种技术来重建第二，第四和第八卷积层的 EEG 特征图。图 6 展示一些例子来说明重建结果和学习过程。
图6由两部分组成。下部使用第二，第四和第八层的所有重建结果显示了频带的功率。图的上部显示激活最强的频段的前6个地形图。第二层主要激活EEG多维数据集的低频部分，并且地形图的几乎每个区域都被考虑进来。最高的能量位于地形图的前面，这可能是由于眼睛运动引起的。从第二层到第四层和第八层，此模型从较宽的频带中提取特征图，并激活更多指定区域。与浅层相比，深层可以提取出更详细的特征，这在一定程度上解释了为什么深层模型在脑电分类问题上表现良好。但是，如果网络太深，则将过多地强调细节，这可能会导致过度拟合的问题。因此，神经网络结构的设计对于脑电图分析尤为重要。

图6

3.频图功率变化的可视化
图6解释了 R3DCNN 的学习过程以及不同卷积层的特征。然而，如何从神经科学的角度解释学到的特征仍然是一个重要的问题。先前有关手工制作特征的文献主要强调在脑力负荷增加期间前额叶皮层的θ[5-8 Hz] 功率增加和顶区的α[9-12 Hz] 降低。在获得第八卷积层中内核的可视化结果之后，作者计算出高和低脑力负荷之间的θ和α的平均差。图7和8显示了几个具有清晰神经科学解释的结果。
在这里插入图片描述
图7

图8

图7展示了基于内核＃9和＃12的高和低心里工作量在反卷积结果上的差异，这些差异提取了前额叶皮层 θ 活动的增加和任务难度的增加。图7的左半部分显示了 θ 活动从低到高的心理工作量的平均变化，这与以前的文献报道一致。右侧部分提供了在各个时刻的变化的更多细节。可以推断，根据视觉刺激，R3DCNN 主要提取 450 毫秒之前（尤其是在 P300 附近）增加的θ 活动。因此，可视化结果表明分析不同任务下 P300 附近的 θ 波变化至关重要。
类似地，图8显示了基于 14 号内核和 58 号内核的 α 活动从低到高的心理工作量的变化。与以前的研究一致，这两个内核提取了随着精神工作量增加，顶叶区域 α 活性的降低。如图8的右侧所示，R3DCNN非常重视 800 ms 之后的时间段。可以推断，远离视觉刺激的α 活动可以提供可区别的信息。
4.半球不对称的可视化
半球不对称性的脑电图频谱变化也可以提供有效的信息，以区分不同的脑力劳动任务。之前的文献观察到左半球的 α 活动增加，脑力负荷增加。尽管在我们的研究中没有出现相同的现象，但一些特征图显示了θ 波段的半球不对称性。图 9给出了这些特征图的示例。
如图9所示，在更困难的任务中，内核＃3 提取了左半球 θ 活动的减少和右半球活动的增加。该图的右侧部分提供了不同时刻的半球不对称性的详细信息。R3DCNN 主要提取 300 ms 附近 θ 带中的右半球增量。左半球活动减少主要是在视觉刺激 800 毫秒之后。因此，不同的时期可以提供不同的半球脑电图活动，选择合适的时间窗口对于提取半球不对称信息至关重要。在这里插入图片描述
图9

总结
为了找到用于跨任务心理工作量评估的脑电图特征，该研究提出了深度RNN和深度3D CNN 结构（R3DCNN）的组合，以学习时空脑电图时空特征。3D CNN 可以学习空间和频谱特征，并且 RNN 层用于获取时间表示。结果表明，提出的模型的平均准确率达到88.9％，优于传统的人为设计特征和为 EEG 分类开发的最新深度模型。可视化结果显示，该研究提出的结构可以提取到具有生理意义的特征，且与之前的研究发现相吻合。R3DCNN 达到了令人满意的分类精度，这证明了其在不同工作负载条件下的潜在应用。

参考文献：

Learning Spatial–Spectral–Temporal EEG Features With Recurrent 3D Convolutional Neural Networks for Cross-Task Mental Workload Assessment.IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING, VOL. 27, NO. 1, JANUARY 2019