基于小波同步压缩变换与集成深度学习的情绪识别

本文链接：https://blog.csdn.net/u011661076/article/details/140120907

摘要

本研究设计了一种基于小波同步压缩变换(WSST)驱动优化集成深度学习(DL)的自动多类情绪识别(AMER)系统，用于识别样本依赖(subject-dependent)和样本独立(subject-independent)两种模式下的人类情感。使用WSST方法将1-D脑电(EEG)信号转换为2-D时频表征(TFR)，然后将其输入到优化集成的卷积神经网络(ECNNs)进行情感分类。将提出的AMER与三种TFRs方法[短时傅里叶变换(STFT)、连续小波变换(CWT)和平滑伪Wigner-Ville分布(SPWVD)]进行比较分析。两种模式的结果相同，WSST的准确率和F1分数最高。此外，WSST驱动的优化ECNN在两种模式中均优于预训练模型VGG16、ResNet50、AlexNet和ViT-B/32。在两个验证数据集SEED和SEED_IV中也观察到了类似的趋势。总之，本研究证明了AMER系统的有效性、通用性和稳健性，可用于情绪识别。

图形摘要

前言

脑电(EEG)信号能够提供有关人类情绪的准确信息，包括多个主观心理状态方面，因此被认为是传达和识别人类情绪的可靠来源。情绪一般可以分为两种类型：1)离散情绪(喜悦、恐惧、悲伤、厌恶和愤怒)和2)多维情绪(唤醒、效价和支配性)。唤醒度显示了情绪的兴奋程度，而效价描述了一种情绪是积极还是消极的。支配性决定了一个人是否感到自己处于控制或无能为力的状态。在这项研究中，唤醒、效价和支配性被用来识别人类情感。

迄今为止，研究人员提出了多种基于机器学习(ML)和深度学习(DL)的方法，用于从EEG信号中识别情绪。Lakhan等人(2019)提取了分频的功率谱密度，并通过支持向量机(SVM)算法将情绪分类为唤醒维度和效价维度。在另一项研究中，Anuragi等人(2022)提出了基于傅里叶-贝赛尔级数展开的经验小波变换方法，并结合多个机器学习分类器进行跨被试情绪识别。Bajaj等人(2018)利用灵活解析小波变换(FAWT)提取了多个特征，并将其应用于K近邻(KNNs)分类器，达到了86.1%的准确率。除此之外，基于机器学习算法进行情绪识别的应用也在其他出版物中有所报道。

这些研究大多采用了传统的基于机器学习的算法，如支持向量机(SVM)或最近邻(KNN)，导致情绪识别的准确率较低。为了提高基于机器学习系统的整体情绪识别准确性，Gupta等人(2019)在FAWT分解的脑电信号上应用了一种集成的基于随机森林的机器学习分类器。而Kamble和Sengupta(2022)则从双阶段离散小波变换-经验模态分解(EMD)中提取特征，并将其输入到bagging集成算法中。在另一项研究中，为了对三类情感进行分类，Subasi等人(2021)在SEED数据集上应用了可调Q因子小波变换(TQWT)提取的特征，并采用了旋转森林集成算法。

在情感计算中，需要将原始EEG数据转换为时频表征(TFR)，并同时提供时间、频率和振幅信息。多时频(TF)分布技术被用作机器学习(ML)和深度学习(DL)的特征向量，展现了令人满意的结果。Khare和Bajaj(2021)利用元启发式技术增强了脑电信号重建，通过对自建的四类情绪数据集进行优化变分模态分解(VMD)，实现了5%的准确率提升。类似地，Kamble等人(2018)应用了非参数优化的有理膨胀小波变换(RDWT)将脑电信号分解为子频带，用于想象语音识别。EMD、VMD、TQWT、FAWT和RDWT等分解技术由于提取特征的能力有限，可能无法揭示具有代表性的特征。手动选择调优参数非常繁琐，即使经过多次尝试调参后，性能也无法得到保证。这是因为脑电信号本质上是复杂、非线性和瞬时的，因此对于情绪识别而言，准确捕捉其TF成分至关重要。

因此，结合深度学习的时频表征(TFR)可以自动从不同时刻的EEG信号中提取高级不变特征，从而简化问题求解。有研究表明，使用卷积神经网络(CNN)的TFR受到了更多关注，其表现优于机器学习模型。当CNN将这些TFR图像作为输入时，它具有出色的分类精度。Gao等人(2021)提出了一种基于连续小波变换(CWT)的TFR驱动的多层CNN模型，该模型集成了差分熵，并报告了91.45%的三分类精度。Lee等人(2018)从短时傅里叶变换(STFT)中检索TFR图像，而Khare和Bajaj(2021)则从平滑伪Wigner-Ville分布(SPWVD)中检索图像，两位研究者