《Fall-Mamba: A Multimodal Fusion and Masked Mamba-based Approach for Fall Detection》论文精读笔记

最新推荐文章于 2025-04-27 17:05:42 发布

小小老大MUTA️

最新推荐文章于 2025-04-27 17:05:42 发布

阅读量1k

点赞数 15

分类专栏：机器视觉 Mamba 论文文章标签：笔记深度学习计算机视觉多模态融合

本文链接：https://blog.csdn.net/qq_50645064/article/details/146522972

版权

机器视觉同时被 3 个专栏收录

46 篇文章

订阅专栏

Mamba

12 篇文章

订阅专栏

论文

11 篇文章

订阅专栏

论文地址：Fall-Mamba: A Multimodal Fusion and Masked Mamba-based Approach for Fall Detection | IEEE Journals & Magazine | IEEE Xplore

开源代码： DHUspeech/fall-mamba: Fall-Mamba: A Multimodal Fusion and Masked Mamba-based Approach for Fall Detection

摘要

跌倒是老年人受伤和死亡的主要原因之一，因此跌倒检测至关重要。传统的可穿戴传感器和环境设备在舒适性、便利性和准确性方面存在局限性。随着人工智能和物联网（IoT）的发展，基于摄像头的跌倒检测成为研究热点，但遮挡和光照条件差等问题仍然存在。为了解决这些问题，本研究提出了一种名为 Fall-Mamba 的创新模型。

与以往方法相比，Fall-Mamba 利用交叉注意力机制（Cross-Attention）融合视频和音频数据，显著增强了对跌倒事件的综合理解和检测性能。此外，该模型结合了多头时序注意力机制（Multi-Head Temporal Attention）和帧掩码策略（Frame Masking），提高了其捕捉关键帧的能力并增强了鲁棒性。在 Le2i、URFD 和 Multicam 等多视角、多场景数据集上进行的大量实验表明，Fall-Mamba 表现出卓越的性能，准确率达到 99.63%，并具有高鲁棒性。该技术为物联网智能家居中老年人的安全提供了强有力的保障。

一、引言

跌倒检测是一项至关重要的任务，尤其是对老年人而言，因为跌倒可能导致严重伤害甚至死亡。根据世界卫生组织的数据，跌倒是全球意外或非故意伤害死亡的第二大原因，每年估计有 64.6 万例致命跌倒发生 [1]。正因其重要性，跌倒检测越来越受到关注。传统的检测方法，如可穿戴传感器（包括加速度计、陀螺仪、血糖仪和压力传感器），通过从身体收集实时生理数据来分析健康状况和动态 [2]。然而，这些设备通常缺乏舒适性和便利性，导致用户忘记佩戴或由于佩戴不当或电池耗尽而失效。另一种方法是利用环境设备（如红外传感器、振动传感器、多普勒雷达 [3], [4] 和麦克风 [5]）通过监测环境线索进行跌倒检测。然而，这些方法可能会增加安装成本，并且容易因外部环境因素触发误报。

随着人工智能（AI）和物联网（IoT）技术的发展，基于摄像头的检测方法结合深度学习算法在图像视觉领域越来越受欢迎。这些方法已广泛应用于 3D 检测、人员跟踪和跌倒检测等领域 [6]。如图 1 所示，这些方法根据其处理方式可分为目标检测、短视频理解和姿态/关键点检测。与基本的图像分类和目标检测方法相比，视频理解（尤其是短视频理解）对跌倒检测至关重要，因为“跌倒”是一个连续的过程 [6], [7]。例如，在视频数据中，跌倒事件的发生通常由多帧组成，这些帧之间存在广泛的关联性。如果仅基于单帧进行跌倒检测，可能会导致偏差，容易将其他动作误认为跌倒，从而产生误报。

在图像视觉领域，许多优秀的算法模型已经涌现。例如，Bo-Hua Wang 等人使用目标检测模型（YOLO [8]）和人体姿态检测模型（OpenPose [9]）进行预处理，以获取人体的关键点和位置信息。他们提取动态特征（质心速度、上肢速度）和静态特征（人体的外接椭圆），然后使用多层感知器（MLP）和随机森林对动态和静态特征数据进行分类 [10]。此外，一些方法仅基于单模态图像数据通过动作识别监测人体跌倒 [11]，或使用 V2V-PoseNet 模型检测人体骨骼，然后通过支持向量机（SVM）进行分类 [12]。

除了图像视觉，音频分类领域也有一些优秀算法。例如，基于智能手机音频功能的自动跌倒检测系统比较了 k 近邻（k-NN）[13]、支持向量机（SVM）[14]、最小二乘法（LSM）[15] 和人工神经网络（ANN）[16] 在跌倒检测中的性能 [17]。此外，Diannan Chen 和 Kaishun Wu 提出的一种基于被动和主动声学传感融合的跌倒检测方法表现出色，即使在嘈杂环境中也能达到 90% 以上的准确率 [18]。与图像和视频数据相比，音频数据的优势在于能够捕捉与跌倒相关的声音，例如撞击声或呼救声，这些在视觉数据中可能被忽略。

然而，这些单模态跌倒检测方法存在一定的局限性。尽管基于图像视觉的模型检测精度高，并能提供丰富的时间上下文信息，但其性能受光照条件和遮挡的显著影响 [19]。另一方面，基于音频的检测模型极易受到环境噪声的干扰，导致鲁棒性有限。解决这些问题的方法是整合多模态数据源（如音频和视频），以更全面地理解跌倒事件，从而增强复杂现实环境中跌倒检测系统的鲁棒性和准确性。

幸运的是，家庭监控摄像头的发展，尤其是物联网和多模态数据传输的出现，为克服视觉处理局限性提供了可能，通过利用家庭环境中其他模态的数据，多模态跌倒检测模型逐渐成为新的研究热点 [20]。随着多模态特征融合技术的出现，跌倒检测迎来了前所未有的发展机遇。通过整合视频、音频和可穿戴传感器等多种模态的信息，并利用不同模态之间的内在关联性和互补优势，可以克服单模态检测模型的局限性，显著提高检测模型的准确性和鲁棒性。

本文的主要贡献如下：

我们提出了一种名为 Fall-Mamba 的创新模型，该模型采用交叉注意力机制（Cross-Attention）融合视频和音频数据的特征，利用两种模态的互补优势提升检测性能。通过使用双向状态空间模型（Bidirectional State-Space Model），该方法实现了基于视频理解的跌倒检测。
该模型结合了多头时序注意力机制（Multi-Head Temporal Attention），以捕捉序列中不同帧之间的相关性，从而增强模型识别关键帧的能力，提高跌倒事件识别的准确性。
我们创新性地引入了帧掩码技术（Frame Masking），以模拟物联网家庭环境中潜在的数据丢失现象。大量实验结果表明，我们的方法在跌倒检测中实现了卓越的准确性和鲁棒性。

二、相关工作

A. 传统跌倒检测模型

大多数现有的跌倒检测方法基于图像视觉，例如 Sarah Almeida Carneiro 和 Gabriel Pellegrino da Silva 提出的基于 CNN 的姿态检测算法 [21]，其准确率达到了 92.24%。Dina M. Elfiky 和 Ramez M. Elmasry 等人提出了一种基于视觉的跌倒检测预警系统 [11]，该模型通过姿态检测判断是否发生跌倒，准确率为 91.46%。一些研究者，如 Qian Z 和 Lin Y，利用可穿戴设备进行跌倒检测，或者像 Mondher Bouazizi 的团队一样，使用雷达进行检测 [22], [23]。然而，基于视觉的方法仍然是无可争议的主流检测方法。

此外，物联网（IoT）和深度学习算法的快速发展为多模态数据的复杂特征提取和融合提供了强大支持，尤其是 Transformer 模型 [24] 的引入，进一步增强了建模长期依赖性和不同模态之间交互的能力。最近的研究表明，结合视频和音频数据可以显著提高跌倒检测系统的准确性，通过利用两种模态的独特优势。例如，YOLOv7 [25] 模型可用于提取图像特征，而 MobileNetV2 [26] 架构处理音频特征。这些输入可以通过具有线性加权的双流时空图卷积网络进行分类 [27]。同样，H. Zheng 等人提出了一种结合 YOLO 和 GhostNet [28] 的方法，使用 TensorRT [29] 加速引擎加速 AlphaPose [30] 模型训练，并最终采用时空图卷积网络进行识别 [31]。

总体而言，跌倒检测任务在深度学习领域具有重要意义。通过整合音频和视频模态的数据特征，并综合考虑这些特征之间的内在关联性，可以有效解决单模态检测模型存在的许多问题，从而实现更全面、灵活和深入的跌倒检测。这种准确高效的检测方法为物联网家庭环境中老年人的实时监控提供了强大支持。

B. 用于序列建模的状态空间模型

近年来，序列建模领域取得了显著进展，尤其是在 Transformer 架构和状态空间模型（SSMs）[32] 的指导下。自 2017 年推出以来，Transformer 凭借其独特的自注意力机制彻底改变了自然语言处理（NLP）的边界，同时也推动了图像视觉领域的强劲发展。Vision Transformer (ViT) [33] 是将 Transformer 引入图像识别的开创性工作，表明通过直接处理图像块，Transformer 可以达到与传统卷积神经网络（CNN）相媲美的性能。随后的 Swin Transformer [34] 和 DeiT [35] 等模型进一步提高了视觉 Transformer 的效率和准确性。

与此同时，状态空间模型（SSMs）作为时间序列建模的强大工具，在序列建模领域发挥了关键作用。与 Transformer 通过自注意力机制捕捉长期依赖性和上下文信息不同，SSMs 不需要注意力机制，而是通过描述隐藏状态随时间的演变来捕捉序列数据中的时间依赖性和相关性。离散时间 SSM 的发展，尤其是 Mamba 模型 [36] 的引入，进一步增强了 SSM 在语音处理、序列建模、图像分类和视频理解等各种任务中的实用性和有效性。

在视觉领域，Vision Mamba [37]、Video Mamba [38] 和 VMamba [39] 等模型利用 SSM 处理序列图像数据，在捕捉时间和空间相关性方面表现出色。Mamba 模型的引入产生了重大影响，为视觉任务中整合时间和空间信息提供了强大的框架。U-Mamba 结合了 U-Net [40] 和 Mamba 的优势，在医学图像分割中表现出色 [41]，而 Jamba [42] 则将 SSM 与高级注意力机制相结合，进一步增强了长期依赖性和交互的建模能力。这些工作进一步推动了序列建模领域的发展。

序列建模与我们的跌倒检测任务高度相关，因为跌倒是涉及姿势、运动和环境上下文变化的动态事件。特别是在物联网环境中，需要对特定情况进行实时分析，以确保居家老年人的健康和安全，这需要对序列模式有深入的理解。基于这一考虑，本文重点研究将 Vision Mamba 和 Video Mamba 等先进算法应用于跌倒检测领域。

三、单模态模型设计

我们的检测模型 Fall-Mamba 分为单模态版本和多模态版本。两个版本都包含数据特征提取模块和时序 Mamba 模块，但多模态版本还包含一个交叉注意力融合模块，用于整合不同模态的特征。这些模块的协同工作使 Fall-Mamba 能够高效、准确地识别和分析视频和音频数据中的关键信息。

本节首先详细介绍了 Fall-Mamba 单模态视频模型的设计原理（如图 2 所示），明确了各模块之间的关系和数据流。

A. 视频特征提取

在我们的单模态视频模型中，视频特征提取过程起着关键作用。这一步骤旨在将原始视频数据转换为后续模型组件（如时序 Mamba 模块）可以有效使用的格式。视频特征提取过程包括以下步骤：

1）帧提取

将输入视频分割为单帧。

其中，V 表示视频数据， $F_i$ 表示第 i帧，F 为总帧数。

2) 特征提取

使用预训练的 ResNet 网络处理每帧 $F_i$ 以提取特征。首先，将帧调整为 H×W×C的格式，其中 C为通道数。特征提取过程可表示为：

其中，ϕj表示第 j个残差块的卷积操作。最终输出通过全局平均池化（GAP）得到特征向量：

其中，L 是最后一个残差块的输出层。所有帧提取的特征可总结为特征集 X：

其中，d 是特征向量的维度， $x_i$ 是从帧 $F_i$ 中提取的特征向量。

图 3 展示了正常事件和跌倒事件的特征分布。我们使用 ResNet 从正常事件和跌倒事件对应的数据集中提取特征，然后使用 t-SNE（t 分布随机邻域嵌入）进行特征降维和可视化。它们分布的明显分离突出了跌倒检测的有效性。

B. 时序 Mamba 模块

如图 2 所示，我们的时序 Mamba 模块主要由多头时序注意力机制和双向 Mamba 设计组成。

多头时序注意力机制处理输入数据特征的时间嵌入信息，捕捉不同帧特征之间的相关性。

双向 Mamba 处理输入标记序列，包括位置嵌入、时间嵌入和类别标记，从而更精确高效地分析和解释输入标记序列中的时间信息。

这些能力超越了传统跌倒检测模型，使我们的模型能够更有效地分析输入标记序列，同时考虑不同时间步的特征。

1) 状态空间模型（SSM）

2) 多头时序注意力机制

多头时序注意力机制允许模型同时关注输入序列的不同部分，通过使用补丁标记中的时间嵌入信息计算不同帧信息之间的相关性，从而捕捉数据的多个方面。首先，如公式 14 所示，每个补丁标记都包含时间嵌入信息。

查询（Q）、键（K）和值（V）[24] 计算如下：

其中， $W_{Q_i}\in \mathbb{R}^{D_a\times D}$ 、 $W_{K_i}\in \mathbb{R}^{D_b\times D}$ 和 $W_{V_i}\in \mathbb{R}^{D_b\times D}$ 是对应的可学习权重矩阵。

通过这些计算，查询、键和值向量包含时间嵌入信息，这使得注意力分数能够考虑不同帧之间的时间相关性。

其中， $Q_i,K_i,V_i$ 是第 i个头的查询、键和值。注意力机制然后计算值向量的加权和，所有头的输出被连接起来：

其中，MH 表示多头， $W_O$ 是可学习权重矩阵。h表示多头注意力机制中的头数。我们使用 8 个注意力头，即 h=8，如图 2 所示。

多头时序注意力机制使用时间嵌入参数计算输入数据或不同时间步数据之间的关系。使用多个注意力头增强了模型学习复杂时间依赖性的能力，从而提高了我们多模态模型中跌倒检测的准确性，这是传统检测模型所不具备的。

3) Dropout

Dropout 是一种正则化技术，通过在训练过程中随机丢弃单元（及其连接）来防止神经网络过拟合。这有助于确保模型不会过度依赖任何单个神经元，并鼓励网络学习更鲁棒的特征。

在我们的 Fall-Mamba 检测模型中，Dropout 专门应用于时序 Mamba 模块内的全连接层，以提高泛化性能。在训练期间，每个神经元以固定概率 p（通常设置为 0.5 到 0.8 之间）保留，并以概率 1−p丢弃。在测试期间，所有神经元都被使用，但它们的输出按因子 p 缩放，以保持激活的期望值不变。设 h 为隐藏层的输出。在训练期间，从伯努利分布中采样一个二值掩码 m：

其中， $m_i$ 是神经元 i 的掩码。应用 Dropout 后的输出为：

输出按 Dropout 概率 p缩放：

这确保了神经元输出的期望值在训练和测试阶段保持一致。

4) 多层感知器（MLP）

在我们的跌倒检测模型中，通过时序 Mamba 模块处理序列数据后，我们使用多层感知器（MLP）作为分类头。MLP 用于对处理后的序列数据进行分类，做出最终预测。设 x 为来自时序 Mamba 模块的输入序列数据。首先，将输入馈送到全连接层并应用激活函数（ReLU）：

其中，W是权重矩阵，b 是偏置向量。然后，计算输出并使用 softmax 函数将其转换为概率：

其中，W′ 和 b′是输出层的权重矩阵和偏置向量， $\hat{y_i}$ 表示输入属于类别 i 的概率。

四、多模态模型设计

我们的多模态 Fall-Mamba 检测模型与上一节讨论的单模态模型的主要区别在于，它引入了交叉注意力机制（Cross-Attention）来整合音频数据（处理为梅尔频谱图）和视频数据特征。其结构如图 4 所示。

A. 音频数据处理为梅尔频谱图

在我们的多模态 Fall-Mamba 检测模型中，音频数据需要处理为梅尔频谱图，以便与视频数据特征融合。首先，将音频信号分为若干短帧，每帧长度为 N，跳跃大小为 H。对于每帧，计算其快速傅里叶变换（FFT）以获得频谱表示，并将其转换为功率谱：

其中， $x(n)$ 表示音频信号的第 n 个样本， $X(k)$ 表示第 k 个频率分量。然后，通过将功率谱通过梅尔滤波器组，其中每个滤波器覆盖特定的频率范围并映射到梅尔尺度，并对梅尔滤波器组输出取对数，可以得到对数梅尔频谱图：

其中， $M(m)$ 是第 m 个梅尔滤波器的输出， $k_1$ 和 $k_2$ 分别是滤波器的起始和结束频率， $H_{m}(k)$ 是第 m 个梅尔滤波器的响应。通过这一过程，音频数据被转换为梅尔频谱图，从而能够与视频数据特征融合。

B. 多模态特征融合

在从两种不同模态的视频和音频数据中提取特征后，我们采用交叉注意力机制来融合这些特征。这是一种中间融合方法，是后续模型训练的关键步骤。本质上，我们多模态模型处理的特征是通过交叉注意力机制融合的多模态特征。交叉注意力的计算与公式 (15) - (17) 类似，主要区别在于音频数据特征用作查询（Query），而视频数据特征用作键（Key）和值（Value）。

我们的特征融合算法考虑了现实场景中某一模态数据丢失的可能性。因此，特征融合的交叉注意力机制仅在两种模态都存在时应用。如果只有单一模态可用，则使用该模态的数据进行后续训练。这一设计充分考虑了现实生活中的复杂性，确保模型在极端条件下仍保持鲁棒性和抗干扰能力。

使用交叉注意力机制融合视频和音频数据特征的具体过程如算法 1 所示。

给定音频特征 $A\in \mathbb{R}^{T\times D_a}$ 和视频特征 $V\in \mathbb{R}^{T\times D_v}$ ，其中 T是时间步数， $D_a$ 和 $D_v$ 分别是音频和视频特征的维度，融合后的特征为 $O\in \mathbb{R}^{T\times D}$ ，其中 D是交叉注意力机制处理后的特征维度。

通过采用这种融合方法，我们的 Fall-Mamba 模型能够有效整合音频和视频的特征。这种方法始终确保模型从多模态特征融合中受益，利用两种模态之间的互补信息显著提升性能。

C. 掩码策略

考虑到在实际应用中，图像传输经常会遇到丢帧或部分数据丢失等问题，这会显著影响模型的检测效率，并受到 VideoMAE、UMT和 ST-MAE 等近期项目在增强细粒度时间理解方面显著成就的启发，我们在训练中采用了帧掩码（Frame Masking）。通过选择性地掩码输入特征补丁的一部分，我们旨在提高模型在复杂场景中的鲁棒性。

具体而言，我们的掩码模型基于预训练并公开可用的 CLIP-ViT 架构，该架构已在包含视频和音频模态的跌倒检测数据集上进行了预训练。这种掩码训练方法旨在增强我们模型在应对实际应用中部分数据特征丢失问题时的韧性，从而显著提升其检测性能和可靠性。

如图 5 所示，帧掩码过程选择性地对输入数据中的一部分帧序列应用掩码，而其余部分保持不变。首先，帧掩码根据输入大小（帧数、高度、宽度）和掩码比率进行初始化。然后，计算每帧的补丁数。每帧被划分为多个补丁，每个补丁大小为 p×p，每帧的补丁数为：

接下来，确定要掩码的帧数。根据掩码比率，计算要掩码的帧数：

其中， $F_m$ 是要掩码的帧数，β 是掩码比率，F 是总帧数。在根据掩码比率随机选择要掩码的帧后，我们使用从教师模型（CLIP-ViT）学习到的注意力机制计算并生成具体的掩码。生成的掩码是由零和一组成的数组，其中一表示要掩码的特征。这一过程可以用以下方程表示：

其中，O 表示原始数据，M表示掩码， $O_M$ 表示应用掩码后的数据，⊙ 表示逐元素乘法。

在整个帧掩码过程中，要处理的帧是随机选择的，但具体要掩码的区域通过计算确定。通过在训练中应用这种掩码技术，检测模型在面对实际数据丢失场景时更加鲁棒，从而提高了其在实际应用中的整体性能和可靠性。

五、实验

A. 实验设置

为了全面验证我们的检测模型，我们使用了多个公开的跌倒检测数据集并进行了广泛的实验。这些数据集包括 Le2i 跌倒检测数据集（Le2i）[52]、UR 跌倒检测数据集（URFD）[53] 和多摄像头跌倒数据集（Multicam）[54]，后者具有不同的拍摄角度。值得注意的是，只有 Le2i 跌倒检测数据集包含完整跌倒过程的视频和音频数据，而其他两个数据集仅包含视频数据，没有音频信息。

表 I 介绍了 Le2i、URFD 和 Multicam 三个数据集的详细信息。为了更好地测试 Fall-Mamba 在复杂多模态场景中的检测能力，我们合并了三个不同的跌倒检测数据集，这些数据集在视频长度、视角和条件上各不相同，充分考虑了现实生活中可能出现的各种潜在问题。合并后的 Le2i+URFD+Multicam 数据集包含视频和音频两种模态。如果视频数据有对应的音频数据，我们将合并视频和音频数据以训练我们的多模态模型；如果没有对应的音频数据，则不进行特征融合。

我们的模型在由 Le2i、URFD 和 Multicam 组成的大规模数据集上进行了广泛实验，训练集与验证集的比例为 7:3，输入数据大小标准化为 224×224。为了解决数据集中的类别不平衡问题并增强模型的泛化能力，我们在数据预处理阶段引入了多种数据增强方法。对于样本较少的类别，我们采用了随机过采样策略。具体而言，我们计算少数类所需的额外样本数：

其中，α 是防止过拟合的缩放因子，在本研究中设置为 0.5。基于这一结果，我们从少数类中随机采样并进行替换，将新样本与现有的少数类数据结合。这种方法不仅提高了模型识别少数类的能力，还有助于减少类别不平衡引起的偏差。

此外，为了增强模型在多样化场景中的性能，我们对合并后的 Le2i+URFD+Multicam 数据集应用了“暗化”变换。具体而言，我们将视频数据的亮度降低 50%，以模拟低光条件，使模型能够在正常和低光环境下学习特征。通过这些数据增强技术，我们显著丰富了数据集的多样性，有效缓解了类别不平衡问题，并进一步增强了模型在各种场景和条件下的适应性和泛化能力。

我们使用 Python 作为编程语言，并通过 PyCharm 软件进行模拟。在模型训练期间，初始学习率设置为 2e-4，权重衰减系数为 0.1。我们的模型（包括单模态和多模态版本）以三种不同的网络深度开发：tiny、small 和 middle。所有训练、验证和测试均使用 NVIDIA RTX A40 GPU 完成。

B. 单模态模型实验结果

我们的单模态跌倒检测模型在由 Le2i、URFD 和 Multicam 组成的大规模数据集上进行了训练，该数据集具有多视角和多样化场景。测试分别在 Le2i、URFD 和 Multicam 数据集上进行。模型提供三种尺寸：tiny、small 和 middle，网络深度分别为 16、24 和 32。为了展示我们模型的优越性，表 II 比较了我们的单模态 Fall-Mamba（视频数据）跌倒检测模型（不同网络深度：tiny、small、middle）与其他先进跌倒检测算法的准确率结果。

根据表 II 中的实验结果，我们的单模态视频检测模型在 Le2i 数据集上表现优异，middle 尺寸模型达到了 96.77% 的出色准确率。相比之下，tiny 和 small 尺寸的单模态模型表现稍逊，但仍分别达到了 91.15% 和 94.44% 的良好准确率。此外，我们的单模态视频检测模型在 URFD 和 Multicam 数据集上也表现非常出色，middle 尺寸模型在这两个数据集上分别达到了 98.57% 和 97.40% 的优异准确率。我们的模型能够在各种场景中实现高性能检测。

C. 多模态模型实验结果

在多模态模型实验中，我们使用了由 Le2i、URFD 和 Multicam 组成的多视角、多场景合并数据集。

部分实验结果如表 III 所示，充分证明了我们方法的有效性和优越性。显然，与相同尺寸的单模态模型相比，采用交叉注意力机制融合不同模态数据特征的多模态模型在跌倒检测任务中表现出显著改进。在正常光照条件下，我们的 middle 尺寸多模态模型在处理 8 帧时达到了 98.88% 的准确率，比相同配置的单模态模型高出 6%。此外，F1-Score 和 Recall 分别提高了 8% 和 10%，AUC（ROC 曲线下面积）提高了 0.8%，FPS（每秒帧数）也满足了实时检测的要求。这充分证明了交叉注意力特征融合策略的有效性和稳定性。

此外，我们深入分析了帧率选择对多模态模型性能的影响。由于多头时序注意力机制有效捕捉了视频和音频数据与时间信息之间的高度相关性，增加帧数为模型提供了更多捕捉关键信息的机会，从而提高了其对视频内容的理解和判断。根据表 III 中的实验结果，当帧数从 8 增加到 16 再到 24 时，tiny 和 small 多模态模型的检测性能显著提高。值得注意的是，当帧数设置为 24 时，tiny 模型的准确率、F1-Score、AUC 和 Recall 分别达到 98.35%、97.49%、99.67% 和 97.54%，几乎与 middle 尺寸模型在 8 帧时的性能相当，但参数更少。然而，middle 尺寸模型在 24 帧时准确率略有下降，仅为 96.28%，这表明在实际应用中，应根据具体场景和资源限制仔细选择模型尺寸和帧率。

此外，我们还评估了模型在不同光照条件下的鲁棒性。在表 III 中，“Normal”和“Dark”分别表示原始数据集是否进行了亮度降低。在“Dark”环境下，由于亮度降低导致图像细节丢失，单模态视频检测模型在所有指标上的性能均显著下降。然而，通过加入音频数据，我们的多模态模型即使在低光条件下也能保持高准确率。特别是，middle 尺寸多模态模型在“Dark”环境下的准确率达到 98.14%，所有指标的下降幅度最小，充分证明了我们模型的鲁棒性和适应性。

此外，本研究还引入了阻塞和高斯背景噪声干扰，这些是实际物联网环境中可能面临的挑战。图 6(a) 和 (b) 分别展示了引入这些干扰后的数据变化以及干扰实验结果。

实验使用 middle 模型并采用帧掩码策略，基于合并数据集依次应用了 10%、20% 和 30% 强度的噪声干扰、阻塞干扰和混合干扰（包含两种干扰）。干扰强度指背景噪声波动相对于音频信号范围的比例以及每帧视频中被遮挡区域的比例。结果表明，噪声干扰的影响相对较小，而阻塞显著影响模型的检测性能。当阻塞强度超过 10% 时，模型的性能开始明显下降。在 30% 强度的混合干扰下，准确率降至 92.62%，尽管下降幅度较大，但仍处于可接受范围内。这种鲁棒性归功于我们在帧掩码策略设计中充分考虑了这一现实挑战。

如表 IV 所示，我们将三种不同尺寸的多模态模型与其他顶级多模态检测模型进行了比较。实验结果表明，我们的多模态模型在跌倒检测任务中表现出色。tiny、small 和 middle 模型的准确率略高于其他方法。我们采用帧掩码的 middle 模型达到了 98.94% 的准确率，尽管略低于 4S-3DCNN。然而，与线性加权、D-S 理论融合和 4S-3DCNN 方法相比，我们的交叉注意力特征融合机制更加灵活。它有效地融合了视频和音频特征，同时在各种复杂场景中始终保持高检测能力。

性能比不过，就说更灵活，别人多模态，自己又能单又能多。😄

D. 消融实验

1）时序注意力与特征提取

最近的研究表明，Mamba 在处理序列数据（尤其是长序列）方面具有无与伦比的优势，但在特征提取方面表现不佳。因此，我们的模型采用 ResNet 模型作为特征提取模块，该模型在特征提取方面表现出色，尤其擅长处理图像特征，使 Mamba 组件能够专注于补丁序列的计算，充分发挥两者的优势。多头时序注意力机制能够有效捕捉视频帧序列中不同时间步之间的相关性，从而更好地捕捉全局信息。以下是我们的实验策略：

无：不添加额外组件，使用最简单的视频 Mamba 模型进行训练。
时序注意力：在模型中引入多头时序注意力机制以捕捉时间步之间的相关性。
特征提取：使用 ResNet 等优秀的特征提取网络处理数据特征。
时序注意力 + 特征提取：在引入多头时序注意力的同时使用特征提取。

表 V 中所有模型均为单模态视频检测模型的 tiny 版本，帧数设置为 8，使用合并的 Le2i+URFD+Multicam 数据集。结果表明，多头时序注意力机制和特征提取显著提高了我们的跌倒检测模型的性能。具体而言，采用“时序注意力 + 特征提取”策略的模型达到了 86.89% 的准确率，比原始基线单模态视频模型提高了近 20%。由于其出色的性能，我们最终在模型中采用了这种优化方法。

2）跨模态特征融合

在实验中，我们采用了三种不同的多模态数据融合方法：早期融合（在模型早期阶段连接不同模态）、中期融合（在特征提取后通过交叉注意力机制整合不同模态的特征）和晚期融合（在输出层进行加权平均）。

表 VI 中所有模型均为 tiny 版本，帧数设置为 8。对于使用音频输入的单模态模型，我们首先将音频信号处理为梅尔频谱图数据，以实现与视频输入类似的格式，然后通过后续的时序 Mamba 模块进行处理。实验结果表明，早期融合和晚期融合方法不适合本研究，其准确率仅为 83.75% 和 87.80%，仅略高于音频单模态的 80%，甚至低于视频单模态方法的 91.15%。相比之下，我们使用交叉注意力进行中期融合的多模态模型达到了显著更高的 95.01% 准确率，充分证明了交叉注意力机制在整合多模态数据方面的明显优势。

3）帧掩码

在表 VII 中，我们深入分析了帧掩码对不同模态模型的影响。所选的单模态和多模态模型均为 middle 版本，使用合并的 Le2i+URFD+Multicam 数据集。实验结果表明，引入帧掩码以模拟现实场景中常见的数据丢失问题显著提高了模型性能。我们观察到各种模态模型的准确率均有显著提升，单模态模型的准确率从 92.83% 提高到 94.26%，多模态模型的准确率从 98.88% 提高到 99.63%。

图 7 中的混淆矩阵进一步证明，我们的帧掩码模型能够有效检测跌倒事件。尽管仍存在一定的误报可能性，但没有遗漏任何跌倒事件。进一步分析误报情况发现，当音频数据缺失或难以捕捉有意义的音频信息时，模型完全整合多模态特征以评估跌倒事件的能力受到限制，增加了误分类的风险，难以区分视觉上相似的动作与实际跌倒。然而，与未采用帧掩码的模型相比，采用该策略的模型显著减少了误报，尽管问题并未完全消除。这无疑证明了帧掩码策略的有效性。

六、结论

在本文中，我们提出了一种创新的多模态跌倒检测模型，名为 Fall-Mamba。该模型通过其巧妙的交叉注意力机制（Cross-Attention），成功实现了视频和音频数据特征的深度融合。在由 Le2i、URFD 和 Multicam 联合开发的大规模、多视角、多场景跌倒检测数据集上，Fall-Mamba 展现了卓越的性能。实验数据明确表明，引入多头时序注意力机制（Multi-Head Temporal Attention）和帧掩码策略（Frame Masking）显著提升了模型的检测准确率。更重要的是，这些实验结果清晰地证明了多模态方法的显著优势，特别是通过交叉注意力机制融合视觉和音频数据特征，有效突破了传统单模态检测模型的局限性。

Fall-Mamba 模型对多模态数据的出色整合和处理能力，使我们能够更全面、细致地洞察跌倒事件，捕捉可能被单一数据源忽略的关键信息，从而在跌倒检测的鲁棒性和准确性上实现了显著提升。因此，我们相信这种基于视频理解的多模态检测方法，能够为物联网（IoT）家庭环境中老年人的健康与安全提供可靠的支持。