问题探索与论文:基于计算机视觉的老年人活动识别和跌倒检测的深度学习:系统回顾(Deep learning for computer vision based activity recognition

1.具体的文献

文献名称:Deep learning for computer vision based activity recognition and fall detection of the elderly: a systematic review

文献地址:https://link.springer.com/article/10.1007/s10489-024-05645-1

2.需要研究的问题

RQ1

旨在确定用于识别老年人活动或检测跌倒的方法。具体调查HAR(人类行为识别)和跌倒检测的选择源于初步的探索性搜索,其中它们成为AAL(环境辅助生活)中老年人最相关的两项识别任务。鉴于视觉数据比其他传感器数据类型(如视觉验证和同时主体识别)提供了许多优势,并且DL已成为计算机视觉中最先进的方法,对具有这些特征的最普遍方法进行深入分析对于为该领域的未来研究提供信息至关重要。

RQ1.1:数据类型

在收集到的研究中,考虑了三种类型的视觉数据:RGB、深度和红外线(IR)。这些数据类型的分布如图所示。

5.RGB数据在老年人跌倒检测和HAR方面最为普遍(132项研究),其次是深度数据(30项研究),IR数据利用率最少(6项研究)。

与配备深度或红外传感器的专用相机相比,这种差异主要归因于普通相机的可访问性。此外,RGB相机提供了降低成本和更简单的视觉数据检查等好处。值得注意的是,红外摄像机的使用频率较低,通常位于头顶(自上而下的透视),其特征是分辨率非常低,允许使用更简单的CNN模型[45122],以及非卷积模型,如LSTM [119159]和Transformer [119]。深度相机比红外相机更常用,尽管它们通常用于提取骨骼关节,而不是直接执行坠落检测和HAR。具体来说,67%的使用深度数据的研究在分类前计算了骨骼关节[38152152],而其余33%的研究没有[20148155]。

骨骼姿势和序列在审查的研究中成为普遍的数据类型,有67项研究以某种形式纳入了骨骼数据。鉴于HAR和坠落检测任务以人为本的性质,骨质数据代表逻辑特征,在保持可解释性的同时提供高效的信息压缩。骨架通常表示为身体地标的有序坐标集,在2D [2461107]或3D [2238152]位置,这取决于它们是分别从RGB或深度数据中估计的。当在视频上进行骨骼估计时,结果是一系列具有额外时间维度的骨骼姿势,可以探索姿势在时间间隔内的演变。35项研究采用一个或多个身体地标的演变进行坠落或HAR识别[49107],而其余32项研究专门使用静态姿势进行识别[42118]。

除了视觉数据外,一些研究还利用传感器数据来提高系统性能,采用不同的模型或策略进行分类,并随后融合结果。表4中列出的十四项研究使用了五种传感器数据中的至少一种,包括惯性测量单元(IMU)脚注2、音频、气压计、亮度、雷达、心电图(ECG)、GPS和网络流量。IMU数据是最常用的,在14项研究中有10项,特别是用于跌倒检测(10项研究中有6项使用IMU),因为它在识别突然移动和随后的不动方面有效[64149]。气压计、全球定位系统、雷达、亮度和心电图数据一直与IMU数据一起使用。气压计和亮度数据用于获取辅助或冗余信息,以提高识别一致性[74149]。[47]中的心电图数据被用来识别识别中的不一致之处,并触发特定的进一步计算。在[85]中,四种类型的数据(IMU、音频、雷达和GPS)以及视觉数据被用于联合学习,其中使用不同的数据模式进行独立模型的训练。

RQ1.2:DL模型

Figure 6 | Deep learning for computer vision based activity recognition and fall detection of the elderly: a systematic review | Applied IntelligenceAs the proportion of elderly individuals in developed countries continues to rise globally, addressing their healthcare needs, particularly in preserving ticon-default.png?t=O83Ahttps://link.springer.com/article/10.1007/s10489-024-05645-1/figures/6

RQ1.3:数据集

  • 老年人:尽管跌倒检测和活动识别通常针对老年人,但只有一小部分数据集(12%)包含来自这一人群的样本。这种稀缺性凸显了收集老年人真实数据(尤其是真正的跌倒事件)的挑战。

  • 跌倒:大多数数据集(58%)将跌倒作为一个类别,其中 23% 专门侧重于跌倒和非跌倒活动之间的二元分类,强调了这项任务在老年护理中的重要性。

  • 类型:视频数据占主导地位(占数据集的 85%),这与跌倒等活动的时间特性相一致,其中时间背景对于准确识别至关重要。此外,视频可以快速获取大量以帧形式呈现的图像,然后可供数据驱动的解决方案(例如基于 DL 的方法)使用。

  • 数据类型:虽然 RGB 数据无处不在,但深度帧、骨架关节和惯性数据分别占数据集的 38%、29% 和 13%。其他数据类型(如红外数据和运动历史体积 (MHV))不太常见。所有数据集中都存在 RGB 数据,这允许发现记录的确切条件(环境、视角、用户等),并可作为数据的视觉检查,这是其他类型的数据所不具备的功能。

  • 样本:数据集大小差异很大,从少于 50 个样本(例如,FDD-Chen)到超过 500,000 个样本(例如,Kinetics 700-2020),反映了数据可用性的多样性。

  • 类别:类别的数量也差异很大,从二元分类到具有数百个类别的数据集,尽管后者通常不关注 AAL。

  • 研究:一半的数据集仅在一项研究中使用,而只有五个数据集在十多项研究中使用,表明数据集的流行度和使用程度各不相同。

热舒夫大学跌倒检测 (URFD) 数据集216 ] 是使用最广泛的数据集,有 40 项研究 [41,89,153] 对其进行了报道。URFD专注于跌倒检测,提供了70个序列,从两个角度捕捉跌倒和日常生活活动 (ADL),以及各种数据模式,包括 RGB、深度、骨骼关节和惯性数据。

UP-FALL 数据集168 ]出现在 17 项研究 [24,39,103 ]中,提供了17 位受试者执行 11 项活动的数据,为跌倒检测和人类活动识别 (HAR) 提供了 RGB 视频、红外图像和惯性数据。相比之下,Le2i 数据集 [ 217 ] 仅侧重于跌倒检测,包含 143 个跌倒视频和 48 个正常活动视频,参与者、场景特征和照明条件各不相同,该数据集被用于 16 项研究 [ 47 , 93, 137]。

同样,MultiCam 数据集218 ]用于16项研究 [ 27 , 30 , 72 ],它提供了从 8 个视角捕获的 24 个序列的 RGB 视频,有助于研究跌倒和混杂事件。NTU RGB+D 数据集 [ 219 ] 被用于 14 项研究 [ 112 , 118 , 131 ],它提供了 40 名受试者使用 Kinect 摄像头记录的 60 项活动的大量样本,从而提供了 RGB 视频、深度图像和骨骼关节。该数据集还有一个扩展版本:NTU RGB+D 120 数据集 [ 230 ],该数据集在此基础上添加了 60 个额外类别。然而,该数据集仅在两项研究 [ 107 , 135 ] 中使用。其余数据集的使用次数不到 10 次,其中约一半仅在一项研究中使用。

RQ2

是一个显著未被探索的领域

在所审查的 18 篇文章中,提出了将 HAR 或跌倒检测任务集成到真实环境中的框架,解决了安全性、云服务的利用、客户端-服务器配置、网络通信、物联网设备等各个方面。下面,我们对所提出的框架进行了简要介绍。

在 [ 42 ] 中,建议使用定制机器人将 HAR 任务集成到环境中,同时集成语言处理等其他功能以实现聊天机器人交互。在 [ 161 ] 中,使用摄像系统捕捉视觉数据,然后将其发送到中央服务器进行计算。随后,通知、报告和警报将发送给指定的“监护人”。

在 [ 74 ] 中,提出了一种基于 Docker 的系统来管理涉及跌倒检测、分配资源和调节通信的各种程序之间的流程。[ 78 ] 也使用了 Docker,其中建议使用 NAO 机器人进行数据采集和用户交互以防止跌倒。在 [ 30 , 32 ] 中,引入了录制和 DL 计算之间的中间步骤来预处理视频数据并减少带宽消耗。

在 [ 18 , 33 , 49 , 52 , 58 , 93 , 105 ] 中,所提出的框架整合了通过摄像头监控系统收集的视觉数据、基于集中式服务器的跌倒检测或各种活动识别,并根据情况的严重程度触发各种响应,例如联系医疗服务。例如,[ 33 ] 利用第三方服务“Twilio”在发生跌倒时发送电话消息,而在 [ 105 ] 中,系统在检测到跌倒后将记录传输到计算机供人工检查。

在 [ 123 , 127 ] 中,活动识别结果与录制的视频数据一起被传输到用于监控系统用户的移动应用程序。[ 63 ] 中提供了类似的功能,并增加了面部模糊匿名化功能。[ 77 ] 在联网环境中进行所有实验,探索如何使用来自多个智能设备的网络流量结合视觉数据来识别各种活动。此外,为了评估他们的方法在不同环境中的可转移性,他们在智能住宅公寓中进行了实验。

在 [ 85 ] 中,采用联邦学习来确保用户的隐私保护。该系统结合了三种传感器模式(深度、毫米波雷达和音频),并在 16 名老年人的家中进行了测试。

RQ2.1:硬件

表7列出了所审查研究中使用的硬件(如有提及)。其中包括热成像、深度和可穿戴相机等专用相机以及社交辅助机器人。所审查研究中未创建的数据集信息被排除在外。由于这些领域存在广泛的可能性,因此省略了与计算或常见 RGB 相机相关的硬件。

Table 7 | Deep learning for computer vision based activity recognition and fall detection of the elderly: a systematic review | Applied Intelligence

对于深度视频检索,最常用的相机是 Microsoft Kinect(7 项研究),其次是 Orbbec Astra Pro(3 项研究)和 Intel RealSense(1 项研究)。这些相机具有相似的规格,使用红外相机为深度通道提供 RGB-D 记录,可在短距离内提供准确的深度估计。此外,它们还可以实现可靠的 3D 骨架关节估计。

热像仪的使用尚无统一意见,因为有多种型号的热像仪可供选择,因此获取的数据存在很大差异,包括分辨率、温度敏感度、最大和最小有效距离等。

仅有五项研究使用社交辅助机器人在 AAL 系统中部署了 HAR 或跌倒检测。其中两项研究使用了 Pepper 机器人,一项使用了 NAO 机器人,其余研究使用了定制机器人。

RQ2.2:隐私保护

​​​​​​​

3.数据源

了五个主要数据源:SCOPUS、Web of Science(WOS)、IEEE Xplore数字图书馆、ACM数字图书馆和PubMed

4.综述的集合

表3 本系统回顾中审查的相关研究的完整列表As the proportion of elderly individuals in developed countries continues to rise globally, addressing their healthcare needs, particularly in preserving ticon-default.png?t=O83Ahttps://link.springer.com/article/10.1007/s10489-024-05645-1/tables/3 表4 使用多模态方法和与视觉数据融合类型的研究As the proportion of elderly individuals in developed countries continues to rise globally, addressing their healthcare needs, particularly in preserving ticon-default.png?t=O83Ahttps://link.springer.com/article/10.1007/s10489-024-05645-1/tables/4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值