机器学习 | 基于脑电图对建筑工人的工作负荷检测_脑电信号窗口大小64s合适吗-CSDN博客

本文链接：https://blog.csdn.net/u011661076/article/details/118631687

摘要：

建筑工人承受着过度的压力，这对于他们的安全和健康产生了不利影响，因此早期压力的识别对于工人的压力管理显得尤其重要。在这方面，脑电图(EEG)已被广泛应用于临床领域，其通过分析脑电波来评估个体的压力。随着可穿戴式脑电设备的发展和使用扩展到关于工地的工人的研究，我们可以无创性地评估建筑工人的压力水平。本研究提出了一个程序，通过EEG信号来自动识别工人的压力。具体而言，本文作者收集了建筑工地工人的脑电信号并进行了预处理，以获取高质量的脑电信号，还收集了工人的唾液皮质醇(一种压力荷尔蒙)，以标记他们在工作场所工作时的压力水平，并采用固定窗口和滑动窗口两种方法计算了脑电信号的时域和频域特征。最后，作者使用了几种有监督的机器学习算法来识别工人在现场工作时的压力水平。结果显示，采用固定窗口方法和高斯支持向量机(Gaussian SVM)获得的最高分辨准确率为80.32%，这和临床领域中压力识别的准确率十分接近，但临床领域使用的是有线脑电设备并要求被试尽可能减少身体运动。结果表明，本研究提出的现场压力识别程序可以用于工人压力的早期识别，这有助于提升工人们的安全、健康、幸福和生产力。

1.引言

工作压力被定义为对工作要求超过员工能力的环境产生的消极生理和心理反应。研究发现压力会干扰人类神经系统的正常功能。大脑对这些干扰的反应是释放一系列化学反应(即压力荷尔蒙)，如皮质醇，以保持神经系统的正常活动。而建筑相关职业被认为是压力最大的职业之一，因为任务需在一个危险的工作环境中完成，且对于身体和心理的要求很高。工人过度的职业压力已被证明会增加错误、事故、伤害和健康问题的可能性，并与生产力停滞或下降有关。所有这些问题在建筑业中都很普遍。此外，据报道，68%的建筑工人由于在建筑行业工作而承受着过度的压力。

为了管理过高的职业压力，识别出工人的压力是一个必要的步骤。至今，使用个体脑电图(EEG)信号用于测量和监测工作人员的精神状态在临床领域受到了相当大的关注。一种最新的无线可穿戴EEG设备可以扩展EEG使用的范围，进而可以以非侵入方式评估建筑现场工人的压力水平。如果能将无线可穿戴EEG设备成功应用于现场，使用该设备带来的连续性工人压力识别能够克服其他繁琐方法在现场应用中的限制，因其他方法可能会干扰工人正在进行的工作任务(例如，测量与压力相关的激素反应，需要对皮质醇进行繁琐的激素样本收集工作)。

本文的目的是开发一种自动识别工人压力的程序，该方法利用了可穿戴式脑电图装置在实际施工现场采集的一系列综合脑电图信号特征。这种自动的压力识别对于检测和管理工人在建筑工地的过高压力特别重要，因为随时间而改变的现场压力源会使工人的压力水平也发生显著变化。为了实现这一目的，作者首先利用可穿戴式EEG设备采集了真实建筑工人在真实建筑工地工作时的EEG信号。研究人员还测量了工人的唾液皮质醇水平，皮质醇是一种压力荷尔蒙，来将任务标记为低压力或高压力。在移除EEG信号中的伪迹后，采用固定窗口和滑动窗口方法计算EEG信号的相关时频和频域特征。然后，应用几种监督学习算法来选择最佳的分类器来识别工人的工作压力。最后，将所建立的现场压力识别方法与临床应用的压力识别方法进行比较，得出其实用价值。

2.基于EEG的现场压力识别程序

2.1 概述

图 1 显示了本研究中开发的基于 EEG 的现场压力识别程序的概述。它旨在克服前面讨论的所有障碍，达到类似于临床领域中压力识别的准确性。作为第一步，使用现成的可穿戴 EEG 设备收集 14 个不同通道的EEG信号。工人的EEG信号将根据他们的压力相关激素进行标记（图1中的A）。然后，通过应用作者之前的工作（图1中的B）建议的 EEG 信号处理框架，去除 EEG 信号伪迹。去除信号伪迹后，提取时域和频域的EEG 特征（图1中的C）。从文献中选择的综合的 EEG 特征中选择了最具区分能力的特征。然后，为了选择识别工人压力的最佳分类器，评估了几种监督学习算法的性能（图1中D）。

图1 现场压力识别程序总概

2.2 EEG信号预处理和伪迹去除

尽管 EEG 设备旨在记录大脑活动，但它也记录了来自大脑以外的其他来源的电活动。如第 2 节所述，EEG信号包含大量的外源和内源的伪迹，这些伪迹掩盖了脑电波。由于工人的广泛移动和不同的环境因素（例如，建筑设备的噪音），在实际施工现场获取建筑工人处EEG信号时，信号伪迹明显更大。为了解决这个问题，作者之前提出并验证了一个信号处理框架，以去除EEG信号伪迹，从而在建筑工地获取高质量的EEG信号。通常，外源伪迹（例如，电极爆裂、运动伪迹、环境噪声和 EEG 传感器中的线路噪声）与脑电波具有不同的频率。因此，滤除 EEG 信号范围之外的频率将消除大部分外源伪迹。使用0.5 Hz-64 Hz的带通滤波器去除大部分导致 EEG 信号缓慢和快速变化的外源伪迹。选择带通滤波器的下限截止频率的标准是基于放置在头部的表面电极检测到的节律性脑电波的频率范围（例如，Delta 波 0.5-4 Hz、Theta 波 4-7.5 Hz、Alpha 波 7.5）–13 Hz、低 β 波 13-15 Hz、Beta 波 15-20 Hz、高 β 波 20-38 Hz 和 Gamma 波 38-更高 Hz），而上限截止频率的选择考虑了EEG 数据记录率（128 Hz）和奈奎斯特频率，考虑到记录率，这是我们可以预期出现在采样数据中的最高频率。奈奎斯特频率等于采样率的一半（本文中为 64 Hz）。此外，凹陷滤波器从信号中滤除非常窄的频率带，用于去除来自电线干扰信号的环境电极的电线噪声（例如 60 Hz）。与外源信号伪迹不同，内源信号伪迹与EEG信号在相同的频率范围内。为了消除内源伪迹，应用独立成分分析 (ICA) 来检测 EEG 记录信号中存在的伪迹成分（例如，眼球运动、眨眼和肌肉伪迹）。ICA方法可以通过识别 EEG 中的虚假 EEG 分量并减去与内源伪迹相关的分量来获得干净的 EEG 信号，从而在不丢失 EEG 信号的情况下将 EEG 内源伪迹与原始 EEG分离开来。ICA方法已广泛用于临床领域的EEG研究，以检测和去除内源的EEG伪迹。

2.3 EEG信号特征提取与选择

下一步是选择有用的特征来识别压力。在大多数机器学习算法中，相关特征的选择是至关重要的，因为它不仅影响分类的准确性，而且影响分类算法的计算成本。特征是可检测信号中一种信息丰富且可测量的特性。根据文献，有两种较为熟知的特征选择方法：基于相关性的方法(a correlation-based method)和包装器方法（wrapper methods）。基于相关性的方法通过对相关系数进行排序来选择最有用的特征。包装器方法根据特征子集对给定预测器的有用性来评估特征子集。包装器方法制作各种特征子集并运行学习算法，提供最佳精度的特征子集将被视为相关特征。由于计算成本高，包装方法在大量特征上使用不是很实用。在处理脑电信号时，在时域和频域上都存在大量的特征。对所有可能的子集组合进行学习和比较精度需要较高的计算成本和时间。不同于包装器方法，基于相关性的方法过滤了对分类影响最小的特征。所以在这篇论文中，作者首先应用基于相关性的方法过滤掉与预测精度相关性最小的特征。然后，作者通过包装器方法检查了最大化分类精度的最佳特征子集。从现有文献中发掘了540个特征，来自时域和频域中的14个EEG通道（每个EEG通道40个特征）。在所有这些特征中，使用基于相关性的方法选择了224个特征。考虑到整体预测精度和计算成本和时间，在对选定的224个特征应用基于包装器的方法后，选择了导致最大预测精度的前80个特征（表1）。

单个EEG读数的特征计算并没有提供信息，因为EEG信号是以128 Hz的频率记录的，因此数据点的数量很大（每秒128个数据点）。为了克服这个问题，将从称为窗口的连续读数块中提取特征。之前的研究人员发现，在使用EEG信号对个人的精神状态进行分类时，3到12s之间的窗口大小是一个有效的窗口大小。为了找到识别工人压力的最佳窗口大小，通过每次增加1秒步长的方式分别测试了1到12s的窗口大小。5s的窗口大小被确定为具有最佳识别性能的最佳窗口大小。

将数据划分到不同窗口的一种方法是定义一个跨越整个动作序列数据的单个连续段（即固定窗口方法）。然后从这些窗口片段中提取特征，并在机器学习算法中用于对固定长度的测试片段进行分类。这确保在用于训练的每个特征中捕获整个动作序列（图2中的A）。固定窗口的另一种窗口方法是使用滑动窗口方法（图2中的B）对数据进行分段。因此，为了选择最佳的窗口方法，本文提出的方法将测试这两种窗口方法并选择分类准确率最高的一种。

表1 从EEG信号中提取的时域和频域特征

图2 固定窗口法和滑动窗口法

2.4 EEG分类

本文使用固定窗口和滑动窗口方法对不同的监督机器学习算法进行了深入全面的测试。测试了K-近邻算法（K-NN），高斯判别分析（GDA），支持向量机（SVM）三种算法，它们具有不同的相似性函数（线性、高斯、三次和二次）。此外，作者探索了用于分类的隐马尔可夫模型 (HMM)、决策树和逻辑回归方法。然而，他们的初步结果是令人失望的，并且没有进一步深入探讨。对选定的分类器使用 10 折交叉验证来验证获得的分类精度；每次使用 90% 的训练数据和10%的测试数据进行10次分类。

2.5 K-NN分类法

k-NN 是一种基于内存的算法，它基于实例空间中的相似性度量，使用整个数据库进行预测。k-NN 基于实例空间中附近数据点具有相同分类的假设。

当一个新的未标记数据 Xi ∈ Rd 到达时，k-NN 测量未标记目标数据点 {X1, X2, X3,…, Xm}, i = 1, 2, …, m 与已标记训练数据点{Z1,Z2,Z3,...,Zn}, j = 1, 2, ..., n之间的距离。其中n是训练数据集的大小，m是未标记数据点的数量。

在计算了未标记数据点和训练数据点之间的距离后，对未标记数据点最邻近的k个子集定义为θk(Xi)，其中θk(Xi) = {θ1，θ2，θ3，…，θk}⊆{Z1，Z2，Z3，...,Zn}以及θl, l = 1,2,3,…,k 的类标签定义为 L(θl) 并从等式导出(2).

最后，Xi 的预测标签被定义为θk(Xi)使用方程(3).

其中 A+1 是标记为 +1（高压力），并且 A−1 是标记为 −1（低压力）。

在本研究中，通过选择最小的k(k=100)来优化k-NN算法的性能,并给出最高的预测精度。选择欧氏距离度量来测量未标记的目标数据点Xi和标记的训练数据点Zj之间的距离。

2.6 GDA分类法

GDA 是一种生成式机器学习方法，它通过使用方程 (4) 和（5）对两类数据（-1 表示低压力，+1 表示高压力）建立Bernoulli概率模型来预测未标记数据。

其中 xi 是训练数据点，yi是标签,μ−1 和 μ+1 是不同类别的平均值，Σ是 N(μ,Σ)的协方差。GDA 使用等式(6)表示一组数据 i = 1, 2, ..., n 的联合似然。

其中 xi 是第 i 个数据点的特征，yi 表示数据点类别和是Bernoulli分布的参数。最后，Xi 的预测标签定义为给定数据点 x 的标签的最大条件概率，使用等式。

2.7 SVM分类法

SVM 是一种经常用于机器学习和数据挖掘的监督学习方法。 SVM 已被引入作为生理数据分类动作的合适分类器。SVM创建分离二元分类问题的数据点的超平面。SVM 应用迭代学习过程收敛到最优超平面，通过最小化以下目标函数来最大化两类数据点之间的边距。

3.现场施工人员EEG数据采集

为了检查开发的现场压力识别程序的性能，作者从三个真实的建筑工地收集了EEG信号：密歇根州底特律的办公楼翻新工地（收集于2016年3月18日至25日）；印第安纳州加里的一家医院改造工地（2017年2月22日获得）；以及密歇根州威克瑟姆的一家场外HVAC钣金制造车间（收集于2016年3月28 日至4月4日），使用现成的可穿戴 EEG设备。数据收集协议已获得密歇根大学机构审查委员会的批准（IRB 批准号 HUM00102068）。

3.1被试和数据收集过程

采集了11名男性工人的EEG 信号。在现场施工工作的七名被试被要求在具有不同操作危险程度的三种不同条件下（即在地面、梯子顶部和密闭空间中工作）执行相同的重复性任务，如如图3中的A所示。四名在场外制造车间工作的被试被要求在休息后的不同时间内执行他们的日常任务(即在预定休息时间后，以及在休息时间后一至两小时)，这可能会产生不同的压力水平，如图 3 中的B所示。作者之前的研究表明，相比在地面工作和在有足够的休息时间后工作，工人在梯子顶部工作/在密闭空间中工作和持续工作而没有足够的休息时会感受到更多的负面情绪。

使用现成的可穿戴式EEG设备(如图3中C所示的Emotiv EPOC+)，采集了工人来自14个通道的脑电波(图3中D)。数据以128Hz的速率采集。数据采集分辨率设置为14位，连接频带为2.4 GHz，动态范围为8400μV (pp)。数据收集得到了密歇根大学的机构审查委员会的批准。在开始数据收集环节之前，被试被告知本研究的目的，并对数据进行全面的解释。

图3 现场EEG数据采集；(a)具有不同工作条件的工作现场；（b）被试有着不同的工作时长的场外工作；（c）穿戴式EEG设备；（d）EEG电极位置

3.2 数据标记

为了给数据选择合适的标签（即低压力和高压力），作者选择了两个工作现场压力源：工作危险和疲劳。在危险条件下工作（例如，在梯子顶部工作和在密闭空间中工作）和随着时间的推移感到疲倦（例如，连续工作而没有休息时间）会对工人的压力水平产生不利影响。这些任务被标记为具有更高级别压力的任务。另一方面，在地面上工作并在短暂休息后立即工作被标记为低压力任务。

除了这些假设之外，作者还筛选了被试，通过测量他们的皮质醇水平来确认这些假设。为了筛选数据并选择最合适的数据集来训练和测试现场压力识别程序，作者在每次实验后测量了从他们的唾液样本中获得的皮质醇水平。较高的皮质醇水平表示较高的压力水平。在11名被试中，我们选择了7 名在危险条件下工作并且连续工作而不休息的皮质醇水平显著升高的被试。表 2 显示了所选7名被试的人口统计学特征。表3总结了皮质醇水平、数据大小和分配给不同数据集的标签。值得注意的一点是，在场外工作的被试 2 在休息后立即工作（皮质醇水平为 0.08μg/dL）和休息后1小时工作（皮质醇水平为0.10μg/dL）的皮质醇水平没有显著变化。但是这个被试要求停止实验，因为这个被试在休息1小时后感觉到高的职业压力，所以我们给这个数据贴上了高压力的标签。

表2 被试人口学信息

表3 被试数据大小、皮质醇水平和标记

4.结果

作者采用了设计的现场压力识别程序，从真实建筑工地收集了数据，并随机将90%的数据分为训练数据和10%的测试数据。表4显示了所有基于固定和滑动窗口方法的测试方法的分类精度。分类精度计算为正确预测的结果（真实的高压力和低压力）在测试数据点总数中的比例。Gaussian SVM 使用固定窗口方法提取特征作为学习输入，在测试的监督学习方法中显示出最高的预测准确率，达80.32%。

不同窗口方法的比较表明，固定窗口大小在所有分类算法中表现出更好的预测精度。训练有素的SVM的可视化为我们提供了有关分类性能的直觉认识。图4显示了应用降维算法（主成分分析法 (PCA)）将特征向量的维度降为二维后，随机选择的数据子集的决策边界和各种分类方法的性能。第一个PCA组件捕获了特征向量中最大的方差。第二个主成分与第一主成分正交，以捕捉特征向量中未被第一主成分捕捉到的方差。在应用 PCA之前，我们对所有特征进行了标准化。因此，结果都是无量纲的。在图4中，浅灰色背景表示分类器预测为低压力的区域，深灰色背景表示预测为高压力的区域。灰色三角形和白色圆圈点显示数据点的实际标签。如图4所示，与其他算法相比，高斯SVM显示了低压力和高压力数据点之间的最佳区分以及更好的预测性能。

表4 测试算法的分类精度

图4 应用不同分类方法的超平面和决策边界

5.讨论

通过在现场使用可穿戴式EEG设备记录工人的EEG信号，结果显示了所提出的程序在建筑施工现场识别工人压力的能力。所提出的程序识别结果与临床领域中具有二进制标记设置的其他压力识别算法具有同等的竞争力。在临床领域，是在受控环境中使用有线脑电图设备，并且被试处于静止状态，有着最少的身体运动。例如，有研究人员使用精致的有线 EEG 设备记录了12 名健康男性被试的脑电波。他们识别了当被试承受解决算术问题的压力时的压力，并要求被试在数据收集期间尽量减少头部运动，以尽量减少 EEG 信号伪迹。他们通过应用SVM达到了87.30%的平均分类准确率。与现有的压力识别程序相比，本研究中提出的压力识别程序提供了一个有希望的结果，因为在使用可穿戴 EEG的现场数据收集过程中，从有大量移动行为的对象中获取和处理EEG 信号具有挑战性。

在所有用于现场压力识别的分类器中，SVW的预测精度最高；这可能与SVW通过容忍训练数据集上的一些错误分类来处理过拟合的高性能有关。在利用脑电信号识别压力时，由于脑电信号通道的数量和脑电信号的复杂性，研究者需要有大量的特征来实现恰当识别压力。因此，增加的特征数量也增加了训练过程中过拟合的概率。SVW算法倾向于抵抗过拟合问题。这是因为SVW在训练过程中对其参数进行了优化，以防止过拟合问题。为了减少过拟合的概率，SVW推导了一个泛化误差界，它依赖于SVW的余量，与异常值以及特征空间的维度无关。因此，可以期望SVM在处理大维度特征空间数据(如脑电图信号)时表现出可靠性。

相反，k-NN方法的预测精度最低;这可能与k-NN方法的归纳偏差有关。k- NN归纳偏差对应于k-NN方法的基本假设，该方法通过测量将每个实例数据点 i分类为大多数其他k个相邻实例的类标签欧几里得的距离。这在处理脑电图信号时产生了一个实际问题，即需要测量不同通道之间的大量信号特征来充分表示信号模式。K-NN基于实例的所有特征来衡量实例之间的距离，并对所有特征考虑相同的权重；这对于某些数据窗口来说是有问题的，因为只有整个特征集的一小部分是判别特征。此外，k-NN性能对噪声特征很敏感。虽然我们去除了大量的信号伪迹，但是，不可能从脑电图记录和通常称为噪声信号的脑电图信号中去除所有的伪迹，并且有一些噪声源是不可避免的。

在对错误分类的标签进行进一步调查后，作者注意到71%的错放标签发生在低压力水平检测中。换句话说，高压力检测的分类准确度始终优于低压力检测。这可以解释为，与选择造成低压力条件(例如，在地面上工作)的压力源相比，选择造成高压力的压力源(例如，在狭窄空间的梯子顶部工作)表现更好，更具有代表性。

一个意外的发现是，在所有选定的方法中，与固定窗口方法相比，应用滑动窗口方法提取 EEG 特征导致了较低的压力识别预测精度。应用滑动窗口方法来提取EEG特征会增加训练集的大小，并且可能平滑了特定特征，并在训练和测试步骤之间提供一致的特征映射输入。另一方面，由于训练过程中的过拟合，可能会增加计算成本和时间，并降低测试精度。此外，考虑到连续 EEG 信号具有不同的水平，应用此技术将增加错误标记 EEG 信号的可能性。

研究仍然存在一些局限性，需要在未来的研究中加以解决。不同的被试在面对相同的压力源时表现出不同的脑电波模式。由于所提出的程序中使用的是监督学习算法的静态性质，不同被试之间的这些不同模式对所提出的压力识别程序的识别表现产生了不利影响。为了进一步提高压力识别的准确性，作者建议应用多被试/任务学习算法，为不同的任务和被试优化分类器参数。

此外，对不同压力水平的识别将有助于优化本研究中提出的程序。虽然本研究提出的高斯SVM分类器将数据分成两个类别（低压力和高压力），在未来的研究中可以通过将投票算法插入本研究中提出的程序来识别更多类别。

6.结论

本研究利用大范围的脑电图信号特征，利用不同的压力分类监督学习算法，开发并检验了一种在实际施工现场识别建筑工人压力的现场程序。为了在这一过程中选择最佳的分类器，本研究检验了几种监督学习算法在从实际施工现场采集的脑电图信号中识别工人压力时的性能。值得注意的是，基于从七个工人和所有测试的分类器中获得的结果，高斯核支持向量机（Gaussian SVM），一个依赖于固定窗口方法的程序具有最高的压力识别精度。这种在一个真实的建筑工地识别现场工作人员的压力水平的准确性是非常有前景的，因为在临床领域中，虽然压力识别的准确性非常好，但是在这些领域中，使用了有线脑电图设备，并在实验室环境中控制了压力源。本文作者所提出的现场压力识别程序可作为一种手段，来实现持续监测工人在各种压力源下的压力，推进工人的压力管理。值得注意的是，尽管数据集的规模很大(总共952,320个数据点)，并应用了验证步骤(10倍交叉验证)，但数据收集自7个被试。为了验证所提出的框架在识别不同行业工人的压力水平方面的效果，建议未来的研究进一步使用更大的样本容量，从更多的工人中收集数据，来检验所提出的框架的性能。

原文可以在这里联系工程师或 17373158786 索要~~