ResNet + LSTM：同时处理空间和时间信息的数据时（如癫痫）的SOTA算法

Debroon

已于 2024-06-21 15:10:38 修改

阅读量4k

点赞数 24

分类专栏： # CV 医学图像：一眼诊全身文章标签： lstm 算法人工智能

于 2024-05-27 14:30:51 首次发布

本文链接：https://blog.csdn.net/qq_41739364/article/details/139236306

版权

CV 医学图像：一眼诊全身专栏收录该内容

86 篇文章

订阅专栏

ResNet + LSTM：同时处理空间和时间信息的数据时的SOTA算法

提出背景
癫痫预测领域的相关研究和所用的数据集
癫痫预测过程
数据预处理
预训练
数据增强
使用特定EEG数据集
STFT预处理的例子
数据增强的例子

残差网络（ResNet）和长短期记忆网络（LSTM）流程图
预训练任务（Pretext Task）
下游任务（Downstream Task）

拆解分析
目的
解法
子解法1: 数据预处理
子解法2: 数据增强
子解法3: 模型训练
子解法4: 计算损失和优化

提出背景

论文：https://www.nature.com/articles/s41598-023-43328-y.pdf

ResNet和LSTM的结合已经成为了深度学习领域的一个重要创新，它能够同时处理图像的空间特征和时间序列数据。

通过结合ResNet在提取空间特征上的强大能力和LSTM在处理时间序列数据上的优势，可以在处理同时包含空间和时间信息的复杂数据时，实现更高效、更准确的分析和预测。

这种结合不仅增强了模型的性能，还扩展了其应用范围。比如一种用来预测癫痫发作的预训练模型的方法，该方法结合了监督对比学习和混合模型，包括ResNet和LSTM。

对比学习：通过探索数据内在的结构和模式而不依赖于标签，通过训练模型使得相同样本的表示更接近，不同样本的表示更远离，从而学习到更好的表示。

在CHB-MIT数据集上的实验表明，该模型在15分钟预发作期的预测中展现了SOTA性能，准确率达到91.90%，敏感性为89.64%。

这篇论文介绍了一种利用预训练模型、监督对比学习和ResNet与LSTM混合架构的方法来预测癫痫发作的新方法。

预处理阶段：数据经过预处理，使用短时傅里叶变换（STFT）将其转换为频谱图像。这种转换提取了时间和频率信息，弥补了EEG数据的不规则性，并有助于有效分析。
预训练作为伪任务：使用诸如带阻滤波和时间切除等技术从原始数据集生成增强数据。然后，ResNet模型与监督对比损失模型一起进行预训练，旨在学习频谱图像的表示。
训练阶段作为下游任务：在此阶段，通过将来自预训练模型的权重初始化的ResNet与LSTM相结合，构建混合模型。该混合模型旨在提取图像特征和时间信息，以增强预测准确性。
验证和结果：使用CHB-MIT和首尔国立大学医院（SNUH）的数据集对所提出的方法的有效性进行了评估，并通过留一交叉验证进行验证。实验结果显示，该方法在准确性、敏感性和假阳性率等方面表现出了良好的性能，并优于传统方法。

癫痫是一种重要的神经系统疾病，影响了全球大部分人口的健康。癫痫发作的预测对于改善患者的生活质量至关重要，因为它有助于及时干预和管理。EEG数据在癫痫发作研究中发挥着重要作用，最近的进展利用深度学习算法处理大型数据集中的复杂模式。

这篇论文的主要贡献包括提出了一种预处理方法以增强特征提取，通过预训练图像表示来获得有限数据下的最佳性能，并引入了一种结合了ResNet和LSTM的混合模型，以提取时间序列图像数据的多样特征。

对于癫痫预测这样的任务，这种结合可以发挥重要作用的几个原因：

空间特征和时间序列的结合：癫痫发作的预测需要同时考虑空间特征（例如脑部图像）和时间序列数据（例如EEG数据）。

ResNet擅长处理图像数据的空间特征，而LSTM适合处理时间序列数据，因此结合二者可以更全面地捕捉数据的特征。
模型的表达能力：ResNet和LSTM都是经过广泛验证的模块，它们各自在特定类型的数据上具有很强的表达能力。

通过将它们结合起来，可以利用它们的优势来提高模型的性能。
对复杂模式的识别：癫痫发作的预测涉及到识别复杂的模式和特征，这些模式可能同时存在于图像和时间序列数据中。

ResNet和LSTM的结合可以帮助模型更好地识别和理解这些复杂的模式，从而提高预测的准确性。

虽然ResNet和LSTM这两个模块相对较老，但它们的有效性和性能已经在多个领域得到了验证。

因此，将它们结合起来，利用它们各自的优势，可以创造出具有较高性能的模型，这也是为什么在癫痫预测等任务中使用它们的原因之一。

癫痫预测领域的相关研究和所用的数据集

相关工作：以往的研究主要集中在信号分析技术上，这些技术对于不规则和复杂的EEG数据并不适用。

以往的方法包括使用经验模态分解、连续小波变换、离散小波变换和短时傅里叶变换等提取EEG数据的频率成分。

此外，还有许多努力从EEG数据中提取有意义的信息，例如主成分分析、近似熵和Hjorth参数。

过去的研究大多使用贝叶斯高斯混合、支持向量机（SVM）和K最近邻（KNN）等机器学习技术进行特征提取和分类。
数据库：该研究使用的数据集根据参考电极选择方法可分为两种类型：‘单极参考’和’双极参考’。

首尔国立大学医院（SNUH）数据集采用’单极参考’方法测量，而CHB-MIT数据集采用’双极参考’方法。

在’单极参考’方法中，所有电极共享相同的GND（地线），而在’双极参考’方法中，每个相邻电极被用作GND。

这两种方法各有优缺点，选择方法取决于具体的研究需求和数据特性。

癫痫预测过程

这个研究流程涉及了几个关键步骤，旨在通过对EEG数据的深入处理和分析来预测癫痫发作。

数据预处理

数据预处理是数据分析流程中的第一步，主要目的是清洗和准备数据，使其适合后续的分析和建模。

在EEG数据的情况下，预处理可能包括以下几个方面：

滤波：移除数据中的噪声和不相关的频率成分。
归一化：调整数据的规模，使其在一个标准范围内，例如0到1。
转换：如前文所述，使用STFT将时间序列数据转换为频谱图像，便于捕捉时间和频率的信息。

预训练

预训练是一种机器学习技术，常用于提前在一个相关任务上训练模型，从而为后续的特定任务建立一个良好的知识基础。

这在数据较少或任务较复杂时尤其有效。预训练可以：

利用较大的通用数据集：在大规模数据集上训练模型学习通用特征。
监督对比学习：这是一种特殊的训练方式，通过比较不同的样本来学习数据的区分特征，尤其是在样本类别之间的微小差异很重要的情况下。

数据增强

数据增强是通过人为地增加训练数据的多样性来提高模型的泛化能力，这通常通过修改原始数据或生成新的数据实例来实现。

在EEG数据分析中，数据增强可能包括：

时间剪切：随机切除数据的一部分，以模拟数据丢失的情况。
频率过滤：通过应用带阻滤波等技术，增加或减少特定频率范围内的信号强度。

使用特定EEG数据集

研究还涉及使用特定的EEG数据集进行模型训练和验证。例如：

CHB-MIT和SNUH数据集：这些数据集包括从医院患者中收集的EEG记录，研究人员使用这些数据来训练和测试他们的模型，验证模型的预测性能。

整个流程的目的是创建一个能够准确预测癫痫发作的模型。

通过这些阶段的处理，可以有效地从复杂的EEG数据中提取有用的信息，并训练出一个鲁棒的机器学习模型，最终提高癫痫管理和治疗的能力。

在这里插入图片描述
EEG数据的预处理步骤：展示了单个通道EEG数据的预处理过程，包括原始EEG数据的转换为频谱图像（使用STFT），并进一步的数据增强技术，如频带截断和临时割除。

(a) 是原始的EEG数据波形。
(b) 是应用STFT后得到的频谱图。
© 是应用频带截断后的频谱图，这个步骤将数据中的某些频率成分切除。
(d) 和 (e) 分别展示了临时割除和带阻滤波后的结果，这些技术通过人为修改数据的特定部分来增加数据集的多样性和复杂性。

STFT预处理的例子

假设你有一段录制的脑电图（EEG）数据，这些数据是脑电活动的时间序列记录。

你想分析在某个特定时间段内，脑电波的频率是如何变化的，以便预测癫痫发作。

原始EEG数据：就像你录音机记录的声音一样，原始EEG数据是连续的电信号记录。
应用STFT：通过STFT处理，这段连续的电信号被转换成一个图像，这个图像上显示了不同时间点不同频率的强度。想象成一个音乐频谱显示器，你可以看到不同音符（频率）在歌曲播放过程中何时变得更响或更弱。
分析结果：这个转换后的图像帮助你识别出在接近癫痫发作时，哪些特定频率的脑电波强度增加，从而可能预示着癫痫发作的开始。

数据增强的例子

由于EEG数据通常很复杂且数据量可能不足，使用数据增强技术可以帮助提高模型的准确性和泛化能力。

带阻滤波：比如说，原始EEG数据中可能包含某些你不感兴趣的频率（可能是环境噪音或设备产生的干扰），通过带阻滤波器，你可以把这些不需要的频率去除掉。就像是在听音乐时调整均衡器，去除掉一些不想听到的低音或高音。
临时割除：另一个技术是临时割除，即在训练模型时随机从数据中删除一些部分。这类似于在准备考试时，不是简单地多次复习同样的问题，而是试着用不完整的信息来解决问题，这可以帮助提高解决未知或不完整问题的能力。

通过这样的处理，你的预测模型可以学习如何在实际应用中处理各种不完美的数据情况，从而更准确地预测癫痫发作。

残差网络（ResNet）和长短期记忆网络（LSTM）流程图

分为两个主要任务：预训练任务（Pretext task）和下游任务（Downstream task）。

预训练任务（Pretext Task）

数据增强：使用带阻滤波器和临时割除技术对数据进行增强，目的是通过人为的方法增加数据的多样性和复杂度。
ResNet预训练：增强后的数据输入到ResNet模型中进行预训练，使用监督对比损失（Supervised Contrastive Loss）。这一步骤有助于模型学习在增强数据上的有效特征表示。

算法步骤：

输入：标记为间发作期（0）和预发作期（1）的10秒EEG原始数据，来源于CHB-MIT（18通道）和SNUH（21通道）数据集。
预处理：
- 对预定义的预发作和间发作间隔的数据，使用滑动窗口（每次1秒）循环处理。
- 利用STFT（短时傅里叶变换）将数据转换为时间-频率表示。
- 从STFT结果中提取0至60赫兹的频率范围数据。
- 执行数据增强：
  - 随机消除0至24赫兹的数据。
  - 随机选择6至10秒的时间范围进行增强。
训练：
- 将增强后的数据输入定义好的神经网络。
- 计算损失，使用监督对比学习损失函数。
- 通过反向传播计算梯度。
- 更新ResNet-18网络的参数。
结果：
- 生成预训练的ResNet-18编码器。

下游任务（Downstream Task）

ResNet细调：使用预训练得到的ResNet模型参数对原始数据进行细调。这可以帮助模型在特定的任务上获得更好的性能。
LSTM层：ResNet的输出连接到一个LSTM层，以处理时间序列数据，进一步提取时间特征。
全连接层和输出：LSTM的输出通过全连接层处理，并最终输出预测结果。

算法步骤：

输入：与算法1相同，标记好的间发作期（0）和预发作期（1）的10秒EEG数据。
输出：分类结果，指示数据是属于间发作期还是预发作期。
预处理：
- 类似于算法1，对预定义的时间间隔使用1秒的滑动窗口处理数据，并转换为时间-频率表示。
- 提取0至60赫兹的频率数据。
训练：
- 使用转换后的原始数据。
- 结合预训练的ResNet-18和一个LSTM层。
- 使用交叉熵损失函数计算损失。
- 通过反向传播计算梯度并更新网络参数。
结果：
- 根据测试集的输出计算结果。

这两个算法展示了使用深度学习进行癫痫预测的完整流程，从原始数据的预处理到使用预训练的卷积神经网络和长短期记忆网络的结合进行训练，最终实现对EEG数据状态的分类。

拆解分析

针对您提出的要求，我们可以将前述算法进行拆解，以理解其目的与具体解法及其逻辑关系：

目的

预测癫痫发作，即准确区分EEG数据中的预发作期和间发作期。

解法

解法涵盖了数据预处理、特征提取、数据增强、模型训练及优化等多个子解法，具体如下：

子解法1: 数据预处理

具体操作：使用短时傅里叶变换（STFT）将时间序列EEG数据转换为时间-频率域的表示。
之所以使用这个子解法：EEG数据复杂且信息丰富，转换为时间-频率域可以更清晰地观察到数据中的时间和频率信息的变化。
例子：在音频处理中，STFT常用于分析不同时间段的音频频谱，类似地，在EEG数据中，STFT帮助识别发作前后脑电活动的变化。

子解法2: 数据增强

具体操作：随机消除部分频率数据和随机选择时间段，以增加模型训练的多样性。
之所以使用这个子解法：EEG数据量可能有限，通过人为增加数据变化，模型可以更好地学习并泛化到未见过的数据。
例子：在图像处理中，常通过旋转、裁剪等方式增强数据，对EEG数据随机剔除频率部分或选择时间段，模拟真实场景中的信号丢失或干扰。

子解法3: 模型训练

具体操作：使用预训练的ResNet-18结合LSTM进行模型训练。
之所以使用这个子解法：ResNet-18能有效处理深层网络的退化问题，而LSTM能够处理时间序列数据的长期依赖，结合二者可以有效提取和利用EEG数据的空间和时间特征。
例子：在视频处理任务中，ResNet可以提取帧间的空间特征，而LSTM处理视频帧之间的时间连续性，相似地，在EEG数据中也能够从时间序列中提取关键特征并预测状态。