双配置视觉 Transformer 在多模态中的突破！_transform架构构建多模态-CSDN博客

本文链接：https://blog.csdn.net/python122_/article/details/141215905

本研究已提交至首届下一代疼痛评估多模态感知挑战赛（A1APAIN）。

所提出的多模态框架利用面部视频和功能性近红外光谱（fNIRS），并提出了一种模态无关的方法，无需特定领域的模型。

采用双重ViT配置，并采用波形表示fNIRS以及从两种模态提取的嵌入，证明了所提出方法的有效性，在多层次疼痛评估任务中达到了的准确率。

I Introduction

国际疼痛研究协会（IASP）将“疼痛”定义为“与实际或潜在的组织损伤相关的不愉快的感觉和情感体验，或以这种损伤来描述”[1]，这标志着对定义的最新更新。疼痛显著影响个人和社会结构，所有年龄段的人因事故、疾病或医疗治疗而经历疼痛——使其成为医疗咨询的主要原因。急性疼痛和慢性疼痛带来临床、经济和社会难题。除了直接影响一个人的日常生活外，疼痛还与各种负面后果相关，如增加阿片类药物使用、物质滥用、成瘾、社交互动减少以及心理健康问题[2]。有效的疼痛评估对于早期诊断、疾病进展监测以及治疗效果的评价至关重要，特别是在管理慢性疼痛方面[3]。此外，在如肌筋膜治疗等疗法中调整疼痛强度也很关键，在这种治疗中，治疗师（如物理治疗师）从外部诱导疼痛，了解患者的疼痛水平至关重要[4]。疼痛评估对医疗专业行人来说至关重要但也具有挑战性[5]，尤其是在处理无法用言语沟通的患者时。这一挑战在老年患者中进一步加剧，他们可能表达较少或不愿讨论自己的疼痛[6]。此外，全面的研究[7, 8, 9]强调不同性别和年龄组在疼痛表达上存在显著差异，增加了疼痛评估过程的复杂性。疼痛评估包括从被视为黄金标准的详细评分量表和问卷调查的自我报告方法，到观察行为指标如面部表情、发声和身体动作[10]。它还包括分析生理反应，如心电图和皮肤电导，这些反应提供了对疼痛物理表现的重要见解[3]。此外，功能性近红外光谱成像（fNIRS）是一种有前景的测量疼痛相关生理反应的方法。这种非侵入性神经成像技术通过追踪脑血流量和氧合变化来评估脑活动。具体来说，fNIRS同时记录氧合血红蛋白（HbO）和脱氧血红蛋白（HBR）在大脑皮层中的浓度变化，提供了对大脑功能的关键见解[11]。此外，fNIRS研究已经证明，有害刺激在健康和疾病受试者的多个大脑皮层区域引发氧合水平的变化[12]。

本研究介绍了一个模态无关的多模态框架，该框架利用视频和fNIRS。所提出的流水线基于双视觉 Transformer （ViT）配置，通过将输入解释为通过2D波形表示的统一图像，消除了对特定领域架构或每种模态的广泛特征工程的必要性。

II Related Work

近期的发展已经引入了多种创新方法，用于从视频数据中评估疼痛程度。[13]号文献中的作者开发了一个时间卷积网络（TCN），并使用了HSV色彩模型，他们认为这对于与人类视觉感知相关任务，比如皮肤像素检测和多脸检测，具有更多优势。[14]号文献中的作者将VGG-Face卷积神经网络与3层长短期记忆网络（LSTM）结合，从灰度图像中提取时空特征，并应用零相位分量分析进行增强。[15]号文献中则采用了主成分分析来降低维度。最后，在[16]号文献中，作者介绍了一种混合方法，结合视觉 Transformer 进行空间特征提取和标准 Transformer 进行时间分析，达到了高准确率。在疼痛研究领域，有几项研究将功能性近红外光谱（fNIRS）与机器学习方法结合使用，有效提取相关特征并评估疼痛状况。[17]号文献中，将词袋（BoW）方法与K近邻（K-NN）分类器结合，分析时间-频率特征，其效果优于单独分析时间或频率特征。相反，[18]号研究显示，将时间域和频率域特征与高斯支持向量机（SVM）结合，可以获得最佳结果，而Rojas等人[19]使用原始fNIRS与两层双向长短期记忆网络（BiLSTM），在多类分类任务中达到了90.60%的准确率。[20]号文献中的作者开发了一种卷积神经网络（CNN）和LSTM模型的混合架构，以捕获fNIRS中的时空特征，并实现了高绩效。关于多模态方法，Gkikas等人[21]引入了一种有效的基于 Transformer 的多模态框架，该框架利用面部视频和心率信号，证明了将行为和生理模态相结合可以增强疼痛估计性能。[22]号文献中，从电皮肤活动、呼吸频率和光电容积描记图中提取统计特征，并实施了联合互信息处理，以评估疼痛强度和定位疼痛起源。

III Methodology

本节将介绍所提出的多模态自动疼痛评估框架的处理流程，模型架构，预处理方法，预训练策略以及增强技术。

Framework Architecture

提出的框架名为_Twins-PainViT_，包括两个模型：PainViT-1_和_PainViT-2。这两个模型在架构和参数上是相同的，并且遵循相同的预训练过程，具体将在第三节D中详细介绍。_PainViT-1_接收相应的视频帧和可视化的功能性近红外光谱(fNIRS)通道，并作为嵌入提取器。_PainViT-2_获取嵌入的视觉表征并完成最终的疼痛评估。