前言
本文为一片远程心率监测综述的总结复述,本文为作者第一篇试写博客,欢迎大家提出宝贵意见。
文章主要内容:1.简述了有关远程心率监测的基础知识与相关概念。2.讨论了基于深度学习的远程心率检测方法的几个最新进展,并根据模型体系结构和应用情况进行了分类。3.进一步详述了远程生理监测的相关现实应用,并总结了用于加速相关研究进展的各种常见资源。4.分析了研究成果的意义,并讨论了该领域未来发展方向的研究空白。5.简述与该领域有关的常见基础知识。
简介
心率(HR)是反映人体生理健康状况的重要生命体征之一,通过密切监测一个人的心率可以尽早发现和预防常见的心血管疾病。然而传统的用于心率监测的心率监测仪通常需要与皮肤接触,这种检测方式对新生儿和皮肤脆弱的患者并不适用,此外长期使用接触式测量仪器可能会引起患者不适甚至引发皮肤疾病。
而远程光电容积脉搏波描记法(rPPG,remote Photoplethysmography)则通过摄像机捕捉皮肤细微的亮度变化检测出周期性的心脏跳动。皮肤的亮度变化是由心脏跳动导致的血液流动造成的,当光源照射组织时,光探测器捕捉到血流反射或透射光强度的微小变化,产生所谓的PPG信号。其中,光的吸收遵循比尔-朗伯定律,该定律指出,血液吸收的光与光线透入皮肤的程度以及血液中血红蛋白的浓度成正比。在心跳周期中,血红蛋白浓度的微小变化引起血管吸收的光量的波动,进而导致皮肤反射光强度值的变化。
远程测量方式可以显著降低监测成本,但难以达到接触式测量所能达到的最好效果。同时rPPG技术提取的信号要远远弱于接触式测量得到的信号,因而需要更为精细的处理。
大多数传统的远程心率测量方法遵循上图所示的工作框架。首先对数码相机捕捉的视频帧进行人脸检测(将检测得到的人脸用红框标出);接着在人脸上选择感兴趣的区域(ROIs, regions of interest),比如脸颊,以此获得包含强信号的区域;此后从ROIs内的像素提取rPPG信号,并对其进行进一步的频率分析(如傅里叶变换)和峰值检测来估计HR。
如今,深度学习方法在HR监测方面也大受欢迎。本文旨在为研究人员提供一个使用DL方法实现远程HR测量的回顾,并讲述对其利弊的深入理解。在本文的以下部分,我们将远程HR测量的DL方法分为端到端方法和混合DL方法。我们将基于模型体系结构对其进行分类,并对其方法进行分析。
基于DL的HR测量方法
如上图所示,端到端的DL方法直接用单个模型输出HR或rPPG信号,而混合DL方法在各个阶段利用DL技术。
端到端的深度学习方法
端到端的DL方法直接输出HR数据或rPPG信号而不需要任何中间步骤。由于端到端的方法直接进行模型优化过程,所以这种类型的方法需要大量的训练数据,且训练结果难以验证,我们需要做更多的工作来解释这些模型。
1. 2D CNN
Špetlík等人提出了HR-CNN方法,HR-CNN是一个包含提取器和HR估计器的两步CNN。首先从视频帧序列中提取rPPG信号,对2D CNN提取器进行训练,使其信噪比最大化。然后,将提取的rPPG信号输入HR估计器,输出预测的HR值,训练过程使预测值与ground truth HR之间的平均绝对误差(MAE)最小化。Špetlík等人声称,他们提出的方法更好地解决了视频压缩伪影的问题,而大多数传统的rPPG信号提取方法都失败了。他们在三个公共数据集上验证了它,并提出了一个新的具有挑战性的数据集(ECG-Fitness),其中包含了不同的运动和光照条件。
DeepPhys是一个vgg风格的2D CNN模型,如上图4所示,它同时训练一个运动模型和一个外观模型。其中,运动模型以二色反射模型的理论为基础,将相邻视频帧间的归一化差作为模型的输入表示,对帧中的运动和颜色变化进行建模。外观模型通过注意机制引导运动模型学习运动表征。该网络从原始视频帧中学习了软注意力掩码,并将较高的权重分配给信号较强的皮肤区域。这种注意机制也使生理信号的时空分布可视化成为可能 。Chen和McDuff认为,在运动表征和注意力机制的帮助下,可以更好地捕捉不同光照条件下的生理信号,对光照变化和被试运动更有鲁棒性。
MTTS-CAN是在DeepPhys之上的改进。它通过引入时间移位模块(TSM)来捕获时间信息,TSM模块允许相邻帧之间的信息交换,它通过沿时间轴移动张量中的块来避免昂贵的3D卷积操作。另外,MTTS-CAN中外观模型的输入是将相邻多帧视频平均得到的一帧,而不是原始视频帧。
2. 3D CNN
上文所述的2D CNN只考虑了视频帧的空间信息,而3D CNN框架可以利用视频中包含的时间信息。这些所谓的时空网络(spatio-temporal networks,STNs)可以更有效的表示视频流中生理信号的时空信息。
如上图5所示,3D CNN PhysNet是一种端到端的STN,它旨在定位每个个体心跳的峰值,以图准确估计被试的HR和HRV。3D CNN PhysNet可以用于情绪识别等更复杂的应用,它以原始的RGB视频帧作为输入,直接输出最终的rPPG信号。此外,它利用负皮尔逊相关系数作为损失函数,以获得更高的趋势相似度和更少的峰位误差。
Yu等人提出了一种两阶段的端到端STN,它不仅可以估计rPPG信号,还可以处理高度压缩的面部视频问题,如上图6所示。压缩的面部视频被输入到一个时空视频增强网络(STVEN),以提高视频的质量,同时保留尽可能多的信息。之后将增强后的视频输入到一个时空3D CNN (rPPGNet)中提取rPPG信号。rPPGNet网络应用注意力机制从皮肤区域获取主导的rPPG特征,它可以单独进行rPPG信号提取,但与STVEN联合训练时可以达到更好的性能。Yu等人认为rPPGNet能够更好地恢复具有曲线形状和峰值位置的rPPG信号,从而准确估计HR和HRV。
如上图7所示,Yu等人利用神经结构搜索(neural architecture search,NAS)自动找到最适合的主干3D CNN用于rPPG信号提取。他们设计了一种特殊的三维卷积操作,即时域差分卷积(temporal difference convolution,TDC),以帮助跟踪感兴趣区域,同时可以提高在运动场景和低光照场景下模型的鲁棒性。然后,执行两种基于梯度的NAS方法,以形成用于rPPG信号提取的骨干网。考虑到数据不足的问题,实验中使用了两种数据增强方法
Hu等人设计了一种新的人脸特征提取方法,以避免提取视频的冗余信息,同时增强了远程视频时间建模能力。首先通过三维CNN提取输入视频帧的面部特征,然后利用聚合函数将长程时空特征图融合到短程时空特征图中。之后将这些特征图输入信号提取器,通过多个时空卷积提取rPPG信号。在提取的rPPG信号中进一步采用时空条带池方法和注意力机制处理头部运动问题,避免忽略重要的局部信息。
Zhang等人提出了一种高效的多层卷积网络以进行快速估计,它只需15秒的人脸视频即可有效的重构rPPG信号并估计HR。利用三层3D CNN从RGB人脸视频中提取低级人脸特征图。这些特征图被传递到一个时空堆栈卷积模块进行更深层次的特征提取并生成高级特征图。然后对高阶特征图进行通道特征提取,生成通道特征图,在低阶特征图的基础上生成皮肤图,强调信号较强的皮肤区域。然后,通过对皮肤图和通道特征图进行特征融合,构建权重掩模。最后,将高阶特征图与信道权重掩模相乘,送入rPPG信号提取器。
如上图8所示,ETA-rPPGNet是另一个用于处理冗余视频信息提取问题的网络。在该网络中,设计了一个时域分段子网来模拟视频的长程时间结构。将分割后的视频片段传送到该子网的不同子空间网络中以提取人脸特征。然后,应用注意机制学习重要的空间特征。之后利用聚合函数对时间背景进行聚合,以减少冗余视频信息,得到每个子空间网络的特征图。这些单独的特征图被连接并馈入骨干网络,用于rPPG信号提取。在主干网内部,还增加了一个注意模块,用于消除不同的噪声(如头部运动、光照变化)。最后,对提取的rPPG信号进行一维卷积处理,有效地对局域所保持的相关性进行建模
3. 2D CNN + RNN
研究人员还设计了另一种类型的时空网络,它使用二维CNN提取空间信息,用RNN提取时间前后信息并将其结合。
有关工作提出了另一个版本的PhysNet,它将2D CNN与不同RNN (如,LSTM,BiLSTM,ConvLSTM)相结合,比较基于3D CNN的PhysNet与基于RNN的PhysNet的性能,并评价不同RNN的性能,如上图9所示。网络的输入和输出保持与3D CNN PhysNet相同。该模型首先将输入信息输入到2D CNN中以提取RGB视频帧的空间特征,然后利用RNN在时域内传播这些空间特征。在该研究中,基于3D CNN的PhysNet比基于RNN的PhysNet获得了更好的性能,而BiLSTM变体的性能最差,这表明空间特征的反向信息流是不必要的。下表从均方根误差(RMSE)和皮尔逊相关系数(R)的角度展示了不同版本的PhysNet的性能。
研究者还提出了另一种结合2D CNN和带有注意机制的ConvLSTM网络的rPPG信号提取方法。对于2D CNN部分,它采用了与DeepPhys类似的方法,由主干分支和掩模分支组成。主干分支用于从人脸图像序列中提取空间特征,而掩模分支学习并生成注意掩模,并将其传递给主干分支以引导特征提取。然后将这些空间特征输入ConvLSTM网络,以便利用视频帧中持有的时间相关性进行rPPG信号提取。
混合深度学习方法
对于混合DL方法,DL技术只应用在检测过程中的某些部分,比如信号优化、信号提取或HR估计。
3.1 用于信号优化的深度学习
在大多数现有的远程HR测量过程中,输入是由数码相机录制的原始视频。因此,需要进行人脸检测或皮肤分割,忽略不相关的背景信息。此外,一些特定的皮肤区域,如脸颊,含有更强的信号,通常被选择为ROI。在本小节中,我们描述了这些基于DL的信号优化方法,以实现更有效的信号提取。
在《Non-contact Heart Rate Monitoring by Combining Convolutional Neural Network Skin Detection and Remote Photoplethysmography via a Low-Cost Camera》中,创建了一个用于皮肤检测的2D CNN,并在一个私人视频数据库上进行训练。人工分割出的皮肤区域样本和非皮肤区域样本,分别作为阳性样本和阴性样本处理。然后对检测到的皮肤区域进行常规rPPG算法(ICA和PCA)评估。Tang等人提出低成本相机可以利用他们的方法捕获rPPG信号,这种方法在不同条件下选择噪声最小的RGB通道,在单通道输入下工作。该方法还可以与传统的rPPG方法相结合,以提高其性能。然而,它利用了人脸的所有皮肤区域来提取rPPG信号,其中可能包含不必要的噪声。此外,他们的方法仅在黄色肤色的私人数据集上进行验证。
在《Biometric Signals Estimation Using Single Photon Camera and Deep Learning》中,一个单光子二极管(SPAD)相机被用来记录视频。这台相机在黑暗的环境中工作得很好。记录的帧是低分辨率的灰度图像。2D CNN编码器-解码器模型将此作为输入,生成一个值在0到1之间的单一通道图像,表示特定像素被视为皮肤的概率。此外,针对这一特定的皮肤检测问题,由于缺乏数据,在训练过程中采用了迁移学习方法。该模型在大量未标记人脸图像数据集上进行着色训练,然后在皮肤掩模数据集上进一步训练。最后,通过阈值化得到二值皮肤掩模,并进行信号提取。
Deep-HR采用接受域块(RFB, receptive field block)网络对感兴趣区域进行目标检测。这个网络是在一个私人数据集上进行训练的,该数据集有真实场景下录制的视频,以提高整体鲁棒性。此外,该方法设计了生成式对抗网络(generative adversarial network, GAN)模块来增强检测到的ROI。了解高质量的ROI分布情况的CNN作为鉴别器,监督另一个深度编解码器网络,后者作为生成器,对检测到的ROI进行再生。这个高质量检测到的ROI被用于后续的信号提取。Deep-HR中用于信号优化的架构如上图所示。
3.2 用于信号提取的深度学习
信号提取是远程HR测量系统中最重要的环节。其主要目标是从视频中提取rPPG信号进行HR估计,是该领域的研究热点。研究人员提出了许多不同的DL方法来获取高质量的rPPG信号,我们将根据所使用的神经网络类型对它们进行分类和描述。
3.2.1 LSTM
在《An Accurate LSTM Based Video Heart Rate Estimation Method. Pattern Recognition
and Computer Vision》中,采用LSTM网络进行信号滤波,提高了提取的rPPG信号的质量。由于传统方法提取的rPPG信号可能包含多种噪声,对噪声污染的rPPG信号进行滤波,可以得到无噪声rPPG信号,从而更准确地估计HR。对于该实验中的LSTM网络,如上图所示,首先在大量的合成数据上进行训练,然后对真实数据进行训练,对模型进行微调,增强其泛化能力,该方法能够有效地解决数据不足的问题。
3.2.2 2D CNN
如上图所示,在Deep-HR中,学习一个2D CNN来提取ROI像素的颜色信息。利用gan模式的模块对提取的信息进行去噪处理。利用一个获取高质量rPPG信号的鉴别器来引导发生器重构无噪声的rPPG信号。这种去噪技术也可应用于其它rPPG方法中,以提高其性能。
MetaPhys使用预先训练的2D CNN,即TS-CAN,这是MTTS-CAN的另一个版本,用于信号提取。TS-CAN只能一次估计HR,而MTTS-CAN可以同时估计HR和RR。此外,为了更好地推广模型,提出了元学习方法。利用模型不可知元学习(model - nostic Meta-Learning, MAML)作为个性化参数更新模式,生成通用初始化,以便在只有少量训练样本的情况下进行快速适应。此外,在MetaPhys上对监督和无监督训练方法进行了评估。Liu等人认为,该方法可以减少由于肤色造成的偏差,提高模型的鲁棒性。
3.2.3 3D CNN
在《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》中,3D CNN被设计用来从未经处理的视频流中提取特征,然后用一个多层感知器来回归HR。本文还提出了一种利用合成rPPG信号有效生成真实视频的数据增强方法。利用矢量重复将合成的rPPG信号转换为视频信号。为了使合成视频更逼真,还在合成视频中加入了噪音。
Siamese- rppg是一个基于Siamese 3D CNN的框架,如上图所示。这个框架背后的想法是,不同的面部区域可能受到不同噪音的影响,并有自己的外观。然而,它们应该或多或少反映相同的rPPG特征。因此,我们首先选择具有较多rPPG信息的前额和脸颊区域作为ROI。接下来,将这两个ROI中的像素分别传递到额头分支和脸颊分支进行提取,这两个分支都是相同架构的3D CNN。在这两个分支中还采用了权值共享机制,即使脸颊或前额区域被噪声污染,框架仍然可以使用另一个区域进行信号提取,提高了整体鲁棒性。然后将这两个分支的输出通过加法运算融合,再进行两次一维卷积运算和平均池化,得到预测的rPPG信号。
HeartTrack利用带有注意机制的3D CNN进行信号提取。在该三维时空注意网络中,利用硬注意机制帮助网络忽略不相关的背景信息,利用软注意机制帮助模型过滤掉所覆盖的区域。将提取的信号送入1D CNN进行时间序列分析。在训练过程中也使用了合成数据,以解决真实数据不足的问题。
在《Multi-task Learning for Simultaneous Video Generation and Remote Photoplethysmography Estimation》中,提出了一个多任务框架,用于学习rPPG信号提取模型和同时扩充数据。在这个框架中总共有3个主要网络。第一个是信号提取器,直接从输入的面部视频中提取rPPG信号。第二个是重建网络,用于从真实图像生成合成视频。第三个也是从真实视频生成合成视频的重建网络。它们被设计为相互支持,这两个重构网络可以有效地处理训练数据不足的问题,提高整体鲁棒性。
DeeprPPG是一个框架,可以使用不同的皮肤区域作为rPPG信号测量的输入,允许定制ROI选择和更广泛的应用。从原始视频中提取皮肤区域片段作为输入,利用时空网络提取rPPG信号。同时提出了一个时空聚合函数,以缓解不同噪声污染区域的副作用,提高模型的鲁棒性。
3.2.4 2D CNN + RNN
《Vision-Based Heart Rate Estimation Via A Two-Stream CNN》采用双流方法进行特征提取和rPPG信号提取。针对特征提取流,提出了一个具有低秩约束损失函数的二维CNN,迫使网络从时空地图中学习同步的空间特征,提高了人脸检测的鲁棒性和ROI对齐误差。对于rPPG信号提取流,首先使用2D CNN提取rPPG信号,然后使用两层LSTM网络对rPPG信号进行进一步细化。最后,将这两个流的输出连接起来进行HR估计。
在《Visual Heart Rate Estimation from Facial Video Based on CNN》中,使用2D CNN提取空间特征和局部时间信息,使用LSTM网络提取连续帧中的全局时间信息。在LSTM的输出中进一步应用一个全连接层来估计HR。该框架能够克服处理延迟,在大约1秒内更新HR,显示了在实时HR监控中被采用的潜力。
Meta-rPPG利用转导的元学习者在部署过程中获取未标记的数据进行自我监督权重调整,允许快速适应不同的样本分布(如上图)。在该框架中,首先使用类似resnet的卷积编码器从人脸图像流中提取潜在特征。然后,将提取的特征传递给BiLSTM网络来建模时间上下文,然后通过多层感知器(MLP)对rPPG信号进行估计。提出了一种用于转导学习的合成梯度发生器。该算法基于浅层沙漏网络,并进一步应用于少镜头学习框架,以生成未标记数据的梯度。
3.2.5 3D CNN + RNN
PRNet是一个用于从静止视频中估计HR的一级时空框架(如上图)。首先,利用三维CNN提取器从定义的感兴趣区域中提取空间特征并捕获局部时间特征;然后,将输出的特征图输入LSTM提取器进行全局时间特征提取。最后,利用全连接层对提取的特征进行HR估计。Meta-rPPG的架构。地图。Huang等人声称该框架只需要60帧视频(2s)就能预测HR,而其他远程HR估计方法通常需要视频的6-30帧。
3.2.6 GAN
PulseGAN是一个基于GAN的框架,用于生成真实的rPPG信号(如上图)。在本文中,首先将CHROM算法应用于定义的感兴趣区域,得到一个粗糙的rPPG信号。然后PulseGAN将此作为输入,生成高质量、真实的rPPG信号,用于准确地进行HR估计。此外,脉冲GAN的结构是基于条件GAN方法的。鉴别器访问地面真值rPPG信号,并引导发生器将由CHROM提取的粗糙rPPG信号映射为与地面真值相似的最终rPPG信号。在鉴别器中,将粗rPPG信号设置为条件。Song等人提到,该框架可以很容易地与其他传统的rPPG方法相结合,以提高提取的rPPG信号的质量,从而获得更准确的HR估计。
3.3 用于心率估计的深度学习
传统上,提取的rPPG信号可以通过带通滤波器滤波,然后进行频率分析或峰值检测来估计HR。然而,HR估计也可以归为回归问题,用DL方法求解。此外,在基于DL的HR估计中,还提出了HR信号的不同表示。
如上图所示,在《Heart Rate Estimation from Facial Videos Based on Convolutional Neural Network》中,采用传统方法(如ICA、PCA、CHROM)提取rPPG信号,并对提取的rPPG信号进行短时傅里叶变换和带通滤波,得到频域表示。该表示进一步与时域信号结合,形成频谱图像,是HR信号的一种表示。最后,利用ImageNet数据集预先训练的基于ResNet18的HR估计器,直接从光谱图像中估计HR。基于该方法,无论采用哪种传统方法,都能准确估计出光谱图像的HR,因为HR估计器可以学习光谱图像的特征,并将其直接映射到HR中。
HR信号的另一种表示方式是用于HR估计的时空图。一般来说,这些时空地图的构建都涉及到ROI选择步骤。利用感兴趣区域像素RGB通道的颜色信息,将其串接在时间序列中,并成行排列,形成时空地图。最后,利用神经网络直接从时空图中估计HR。这种HR信号表示可以突出HR信号,抑制与HR信号无关的信息。在《Learning a Deep Heart Rate Estimator from General to Specific》中,使用迁移学习对ImageNet数据集的HR估计器进行预训练,以处理数据不足的情况。在《End-to-End Heart Rate Estimation From Face via Spatial-Temporal Representation》中,结合2D CNN和门控循环单元(gated recurunit, GRU)进行HR估计,如上图。在《Neural architecture search for heart rate estimation from face videos》中,NAS也被用来寻找一种轻量级的、最优的CNN来从时空地图中估计HR。在《Robust Remote Heart Rate Estimation from Face Utilizing Spatial-temporal Attention》中,增加了一个注意模块来减轻不同噪声的影响。
HR估计可以用简单的全连接层或前馈神经网络作为回归问题处理。《Visual Heart Rate Estimation from Facial Video Based on CNN》中用于HR估计的体系结构如上图所示。在《Convolutional neural network for remote video-based heart rate monitoring》中,也利用前馈神经网络对提取的特征进行HR估计。
应用场景
非接触式HR监测技术的使用带来了现有的接触式PPG方法所缺乏的好处。在本节中,我们将介绍一些通过远程监测生理信号技术可以实现的潜在应用。
流行病的控制
随着当前COVID-19疫情的爆发,非接触式HR监测成为对社会非常有用的技术。例如,此前单独进行温度筛查是不足以检测出新型冠状病毒的。有研究将HR作为COVID-19筛查的标准,研究表明心跳过速(高HR)是COVID-19的另一种症状。此外,随着最近的大流行爆发,使用可穿戴智能设备测量HR、BP和SpO2等生命体征的技术逐渐获得了大众市场。rPPG技术可以取代这些基于接触的方法,方便用户进行精确的筛查和检测,从而实现更高效有效的疫情防控。
防伪
最近,深度造假技术引起了研究者们的关注,它可以用DL技术制作高质量的合成视频。由于这项技术,一些假新闻和恶作剧视频对社交媒体产生了负面影响,比如使用DL方法合成的美国第44任总统巴拉克·奥巴马讲话的高质量视频。这些假视频的质量很高,人类甚至复杂的计算机视觉算法都无法区分它们。因此,针对这类问题,需要研究抗欺骗的方法。目前,很少有人尝试捕捉像HR这样的异常生物信号来检测深度造假视频。
远程医疗
远程医疗如今越来越流行,它与rPPG技术的集成为用户和社会提供了各种好处。例如,用户将体验到更好的日常工作流程,因为前往医疗机构进行健康检查和医生咨询所需的时间将减少。此外,与rPPG技术结合的远程健康软件的应用允许用户使用消费者级的设备从任何地方测量他们的生理信号。此外,远程卫生监测可以减少医院的工作量,并最大限度地减少疾病传播的机会,因为它鼓励减少与患者的身体接触和所需的人力资源,这在大流行病期间是至关重要的。
增强生物识别技术的安全性
目前,利用个体的生物特征信息进行身份验证的技术已经非常普遍。最常见的形式之一是基于人面部独特特征的分析的人脸识别。然而,生物表征攻击可以同时存在于人脸认证过程中。例如,攻击者可以很容易地从社会网站上获取该用户的照片(照片攻击)或视频(重放攻击),并将其呈现给认证系统。结合远程HR测量技术可以增强认证系统的安全性。相关研究开发了基于rPPG的3D面具人脸呈现攻击检测方法,这表明了rPPG技术在安全行业存在的潜力。
驾驶状态检测
为了减少交通事故的发生,可以将rPPG技术应用到驾驶员监控中,以跟踪驾驶员的生理状态。大多数交通事故是由人为因素造成的,包括疲劳、困倦和疾病,氧水平、HR和RR等因素可能导致非特定的健康问题,从而可能导致决策能力受到干扰和丧失。这种监测使早期发现异常的生命体征成为可能,并尽快发出警报,以便司机做出正确的决定,防止致命事故的发生。
从自然灾害中寻找幸存者
在地震和火灾等自然灾害中,寻找幸存者成为一项至关重要但极具挑战性的任务。救援队需要在倒塌的建筑物等危险环境中寻找可能的幸存者。此时,rPPG技术是一种潜在的解决方案,它为寻找幸存者提供了一种更方便、安全和有效的方法。已有相关试验说明了使用配备了摄像机和rPPG技术的可控设备进行幸存者搜索的潜力。
新生儿检测
由于新生儿或婴儿的皮肤非常敏感和脆弱,使用基于接触的方法来衡量他们的健康状况是不合适的。因此,rPPG方法是新生儿重症监护病房(NICU)新生儿长期生理状态监测的合适方法之一。已经有几项研究对rPPG方法进行了试验,并表明了rPPG技术在新生儿监护中的应用前景。
健康跟踪
在健身训练中,使用健康监测器来跟踪当前的生理状况,是防止过度运动和帮助相应地调整健身过程的一个很好的方法。然而,智能手表或电子手环等基于接触的方法并不是特别有效,因为它们很容易在剧烈运动时引起不适或疼痛。因此,在这种情况下,可以利用rPPG技术提供简单的远程健身跟踪。同时,运动过程中的运动伪影是相关研究的主要焦点。有些研究也实现了反馈控制系统,用于自动调节跑步机的速度。
现有资源
由于远程生理监测是计算机视觉和生物医学工程的一个新兴领域,有资源可以让研究人员加速进展和缓解新来者的过渡。在本节中,我们将详细介绍一些帮助实现相关算法的开源工具箱,以及模型训练和基准测试常用的大部分数据集。此外,还描述了rPPG中的开放性挑战,以鼓励不同的研究人员在该领域做出贡献。
工具箱
iPhys是一个用MATLAB编写的开源工具箱,包含在rPPG过程中常用的实现,如人脸检测、ROI定义和皮肤分割。它还包括四种用于基线比较的传统rPPG方法。还提供了其他绘图和信号质量计算功能,用于性能评估。
Python tool for Virtual Heart Rate (pyVHR)是最近开发的一个基于rPPG方法的心率估计Python包。在该软件包中,基于5个数据集实现和评价了8种传统的rPPG方法。还提供了其他常用的预处理和后处理技术。从业者也可以扩展这个框架,在这5个数据集上评估他们自己的算法。
数据集
AFRL旨在评估头部运动伪影的影响。在数据采集过程中,有多成像器记录参与者在特定任务中的头部运动,同时记录心电图(ECG)和指端反射率PPG作为地面真实信号。被拍摄的参与者还被要求执行特定的任务,包括保持静止,以预先设定的每秒角度扫过成像器,以及随机调整头部位置到成像器。环境的背景由纯黑色织物或有图案的彩色织物组成。
COHFACE的目的是让研究人员可以在一个公开可用的数据集上评估他们开发的rPPG算法。在这个数据集中,使用传统的网络摄像头在两种不同的照明设置(工作室照明和自然照明)下捕捉参与者的全脸,以评估照明变化的影响。数据集记录了皮肤反射、呼吸信号作为地面真实信号。该数据集的唯一缺点是压缩严重,不可避免地会添加噪声伪影。
MAHNOB-HCI最初是为情感识别和隐式标签研究而收集的,但他同时记录了心电、呼吸振幅等数据,所以也适用于rPPG算法评估。此外,该数据集用6个摄像头捕捉了被试不同的视图(正面视图,侧面视图,广角,特写),这有助于评估算法在不同姿态角度的性能变化。
MMSE-HR是用于面部表情分析的数据集。然而,一些生命体征,如BP, RR和HR也被记录下来,所以也适合用于测试rPPG算法。此外,不同种族(黑人、白人、亚裔、西班牙裔/拉丁裔)的受试者都参与了数据采集过程,因此研究人员能够针对不同肤色评估算法。
OBF是专门为远程生理信号测量而制作的大型数据集。数据集中除了健康受试者外,心房震颤的患者也参与了数据收集,以验证rPPG方法在心脏病诊断等临床应用中的有效性。此外,健康受试者和房颤患者分别有两种不同的记录状态。对于健康的参与者,记录他们在静息状态和运动5分钟后的状态;对房颤患者复律记录治疗前后的数据。
PURE是用于更详细检查rPPG方法中头部运动伪影的数据集。在数据采集过程中,参与者被要求执行六项不同的任务(稳定、说话、慢平移、快平移、小旋转、中旋转),以引入一些头部运动。同时,数据记录会在自然变化的照明条件下进行。
ufc - rPPG是用于评估rPPG算法的数据集。数据是在有轻微阳光变化和室内照明的室内进行的。记录过程的特别之处在于,参与者被告知要玩一个时间敏感的数学游戏。其目的是提高参与者的心率,从而模拟真实的人机交互场景。
VIPL-HR是为远程脉冲估计研究而创建的大规模数据集。在该数据集中引入了头部运动(稳定、大运动、说话)、光照变化(实验室、黑暗、明亮)和采集多样性(智能手机、网络摄像头、RGB-D摄像头)引起的各种人脸变化,以测试算法的整体鲁棒性。数据集使用不同的编解码器(MJPG, FMP4, DIVX, PIM1, X264)进行压缩,以尽可能地保留信号的完整性,同时方便公众访问。
远程生物信号感应的开放性挑战
在机器学习领域,为特定的机器学习任务创建一个开放的挑战是一种常见的方法,鼓励人们使用DL方法参与并解决特定的问题。著名的开放挑战之一是ImageNet大规模视觉识别挑战(ILSVRC)。这一挑战已经持续了8年(2010-2017年),其重点是目标识别、目标检测和图像分类。针对这一任务,已经提出了许多DL方法,这次竞赛无疑提高了这一领域的研究兴趣,使基于DL的计算机视觉得到了快速发展。因此,在2020年还组织了一个关于远程生理信号传感的开放挑战,即远程生理信号传感(RePSS 2020)。在这项挑战中,主要重点是测量彩色面部视频的平均HR。VIPL-HR- v2数据集是VIPL-HR的第二个版本,OBF数据集用于模型训练和测试。RePSS 2021目前也在运行,主要重点是测量节拍间隔(IBI)曲线和RR。这种开放的挑战可以起到和ILSVRC一样的效果,鼓励人们参与到这个研究领域。
研究缺口
影响因素
基于rPPG的远程HR测量受到光照变化、运动伪影、肤色变化和视频压缩等诸多因素的影响。针对这些挑战提出了几种方法。例如,利用不同的HR信号表征,如频谱图像和时空地图,以及使用注意机制,可以处理光照变化和运动噪声。STVEN的设计是为了提高视频压缩条件下HR测量的鲁棒性。元学习方法具有对不常见样本的快速适应能力,适用于肤色变化的处理。为了更好地理解和量化这些影响因素对远程生理测量的影响,还需要进行更多的工作。更重要的是,新方法应提供如何从技术和生物物理角度处理这些挑战的见解,而不仅仅是在包含影响因素的数据集上评估它们的表现。
测量其他生命体征
HR是一个非常重要的生理指标,可以反映一个人目前的健康状况。这一领域的研究者主要对HR的估计感兴趣,其次是RR。然而,其他生命体征对评估一个人的健康状况也很重要。例如,血压在检测高血压等心血管疾病方面很有用,而SpO2通过显示一个人是否有足够的氧气供应,可以反映心肺系统的健康水平。同时,这些生命体征与COVID-19相关,对COVID-19诊断也很有用。比较HR和RR时,试图远程估计BP和SpO2的研究相对较少。在其他生命体征方面仍有许多研究机会,研究人员有机会关注这些领域。
数据集
数据集对于评估新提出的方法越来越重要,无论是证明在解决具体问题方面的成功,还是提高先前提出的方法的有效性。对于DL方法,数据集更加重要,因为它们也用于监督方法的训练,训练数据集对监督方法的性能有很大影响。目前,大多数现有的公开可用数据都主要在解决两个主要问题,即运动伪影和照明变化。然而,其他挑战,如肤色变化,多人检测和远距离估计也需要克服,以便非常稳健和高度适用于现实世界,取代所有基于接触的方法。此外,这些数据集中的受试者主要是成人参与者。以新生儿作为参与者的数据集也适合用于评估rPPG方法。因此,需要更全面、高多样性和高质量的数据集来充分评估任何新方法的鲁棒性,并允许在监督方法中进行全面的训练。这样的数据集对研究界极为有益。
在不同HR范围上的表现
根据RePSS 2020的绩效结果,排名前三的团队能够在中等HR水平(77~90 bpm)上取得显著的更好的表现,其次是低HR水平(低于70 bpm),而高HR水平(90bpm以上)的表现是最差的。这是一个需要解决的挑战,以便足够准确地应用于现实世界的应用。此外,这一结果还表明,使用平均绝对误差(MAE)、均方根误差(RMSE)、信噪比(SNR)和皮尔逊相关系数(R)等常用指标来评价rPPG方法可能不够有效。为了全面检验所提方法的稳健性,还需要对不同HR水平进行这样的评价。
对基于深度学习方法上的理解
在rPPG技术中使用CNN的优点是,不需要对具体问题进行非常深入的理解和分析,就可以得到很好的结果;缺点是这种DL方法是一个黑盒子,我们不能完全理解为什么会得到这样的结果。缺乏对基于CNN的方法如何在rPPG技术上工作的理解可能是阻碍该技术进一步发展和评估这些DL方法的障碍。研究人员应该将注意力转向更多关注于理解基于DL的rPPG方法的研究,以便获得有价值的见解,并进一步提高这些DL方法的性能。
相关基础知识
光电容积脉搏波描记法PPG
光电容积脉搏波描记法(Photoplethysmography,PPG)是常用的心率监测方式之一,最常见的应用就是如今的智能手环和手表。以此为例,在使用智能手表测量心率时,表盘底部一般会发射出绿色光线,通过对该光线经皮肤表面反射光的分析,实现对人体心率的测量。
PPG技术与rPPG技术的基本原理一致,主要区别在于,在远程测量的情况下,是否依然可以保持测量结果的鲁棒性。在使用智能手表测量心率的过程中,一般需要表盘与人体皮肤之间保持稳定,以免造成测量误差过大的情况。
心电ECG
在医疗领域,心电图(ECG,Electrocardiograph)是最常用的心率监测方式之一。该方法需要在身体多个部位连接传感器电极,来监测心脏活动状况。ECG信号测量结果精准,经常用于专业领域和需要精密仪器的场景下,但由于其设备佩戴繁琐且操作过程复杂,并不适用于日常监测。
二色反射模型 DRM
二色反射模型(chromatic reflection model,DRM)是rPPG所依据的原理之一。在二色反射模型中,摄像头捕捉由皮肤表面反射而来的环境光,包括漫反射和镜面反射。其中,镜面反射发生在入射光和皮肤的交界面,并不包含与生理信号有关的信息,而漫反射受到血流的影响。因而摄像机捕获到的反射光通过信号处理技术的处理,将漫反射分离出来,进而得到所需的rPPG信号。
RGB和YUV视频帧
视频是由一系列的画面在极短时间内通过不断替换形成的,这些形成视频的画面被称为视频帧。如今,视频帧通常都是用 RGB 颜色空间或者 YUV 颜色空间的像素矩阵来表示。
其中,RGB 用R、G、B分别代表红、绿、蓝三个颜色通道,每个通道按照不同比例混合来描述一个颜色。而YUV 是用一个 亮度 分量和两个 色度 分量来描述一个颜色,Y 表示亮度,U和V 表示色度。YUV 的最大特点是将亮度信息和色彩信息分离,没有了色彩信息依旧可以显示一张完整的黑白图片。相对于 RGB 颜色空间,YUV 对于编码、传输更加方便,减少了带宽占用和信息出错。
注意力机制
注意力机制是当前深度学习领域比较流行的一个概念。其模仿人的视觉注意力模式,每次只关注与当前任务最相关的源域信息,使得信息的索取更为高效。
注意力机制可分为软和硬两类:软性注意力(Soft Attention)机制是指在选择信息的时候,不是从N个信息中只选择1个,而是计算N个输入信息的加权平均,再输入到神经网络中计算。相对的,硬性注意力(Hard Attention)机制就是指选择输入序列某一个位置上的信息,比如随机选择一个信息或者选择概率最高的信息。
图像掩模
图像掩模是指用选定的图像、图形或物体,对待处理的图像进行遮挡,来控制图像处理的区域或处理过程。用于覆盖的特定图像或物体称为掩模或模板。光学图像处理中,掩模可以是胶片、滤光片等。数字图像处理中,掩模为二维矩阵数组,有时也用多值图像。
在数字图像处理中,掩模多由0和1组成的一个二进制图像。当在某一功能中应用掩模时,1值区域被处理,被屏蔽的0值区域不被包括在计算中。
图像掩模的主要作用为:①提取感兴趣区,用预先制作的感兴趣区掩模与待处理图像相乘,得到感兴趣区图像,感兴趣区内图像值保持不变,而区外图像值都为0。②屏蔽作用,用掩模对图像上某些区域作屏蔽,使其不参加处理或不参加处理参数的计算,或仅对屏蔽区作处理或统计。③结构特征提取,用相似性变量或图像匹配方法检测和提取图像中与掩模相似的结构特征。④特殊形状图像的制作。
重放攻击
重放攻击(Replay Attacks)又称重播攻击、回放攻击或新鲜性攻击(Freshness Attacks),是指攻击者利用网络监听或者其他方式盗取认证凭据,之后再把它重新发给认证服务器,来达到欺骗系统的目的,主要用于身份认证过程,破坏认证的正确性。
数据度量
平均绝对误差(MAE)
平均绝对值误差(MAE,Mean Absolute Error)表示预测值和观测值之间绝对误差的平均值。
均方根误差(RMSE)
均方根误差(RMSE,Root Mean Square Error)表示预测值和观测值之间差异(称为残差)的样本标准差。均方根误差为了说明样本的离散程度。做非线性拟合时,RMSE越小越好。
皮尔逊相关系数(R)
皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs, 用r表示),为两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数:
其中,E为数学期望或均值,D为方差,E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差,记为Cov(X,Y)。
相关系数衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。具体的,如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:当X的值增大,Y值增大,两个变量为正相关,相关系数在0.00与1.00之间;当X的值增大,Y值减小,两个变量为负相关,相关系数在-1.00与0.00之间。
通常情况下通过相关系数取值范围判断变量的相关强度: 0.8-1.0 极强相关;0.6-0.8 强相关;0.4-0.6 中等程度相关;0.2-0.4 弱相关;0.0-0.2 极弱相关或无相关。
相关距离(Correlation distance):
论文常见词汇
noncontact monitoring 非接触式检测;heart rate (HR) 心率监测;
body temperature (BT) 体温;respiratory rate (RR) 呼吸频率;blood oxygen saturation (SpO2) 血氧饱和度;heart rate variability (HRV) 心率变异性;blood pressure (BP) 血压;arhythmia 心率不齐,心律失常; cardiovascular problems 心血管疾病;blood vessels 血管; epidermis 表皮;dermis 真皮;subcutaneous tissue 皮下组织;capillary 毛细血管;atrial fibrillation (AF) 心房震颤;cardiovascular disease 心血管疾病;cardiorespiratory system 心肺系统;
reflected light 反射光; transmitted light 入射光;webcam 网络摄像头; near-infrared camera 近红外相机; ambient light 环境光;specular reflections 镜面反射;diffuse reflections 漫反射;
data scarcity 数据缺失;noise-contaminated 噪声污染的;noise removing 去噪;generalization ability 泛化能力;processing latency 处理延时;anti-spoofing 防伪; telehealth 远程医疗;authentication 验证;clinical application 临床应用;