背景
虽然包括面部表情和言语在内的显性行为可以伪造,但由自主神经系统调控的生理反应(如心率(HR)、呼吸和心率变异性(HRV))却很难自愿改变,因此在某些情况下用于情感计算更为可靠。
接触式测量有两个缺点:
- 不方便且不舒适,尤其是在长期监测和人机交互(HCI)方面。
- 基于约束的状态阻碍了自发情绪的表达。
然而, 在环境光下远程测量PPG信号可以解决上述缺点。
rPPG信号测量方法的总体框架如下图所示。可以从恢复的rPPG信号中提取生理特征(如心率、呼吸和心率变异性),并将其用于各种情感应用。
一个主要挑战是: rPPG信号所记录的肤色变化非常细微,很容易受到环境光线变化和受试者头部运动等噪声的影响。
皮肤反射模型
rPPG通过使用多波长RGB相机检测人体皮肤表面脉搏引起的细微颜色变化,实现对人体心脏活动的非接触式监测。
如下图所示,考虑一个光源照射一块含有脉搏血液的人体皮肤组织和一个记录这幅图像的远程彩色相机。
假设光源具有恒定的频谱成分,但强度是变化的(在相机处观察到的强度取决于光源到皮肤组织和相机传感器的距离) ,相机测量的皮肤有一种特定的颜色(相机测量的“肤色”是光源(如强度和频谱)、固有肤色和相机颜色通道灵敏度的组合), 这种颜色会随着时间的推移而变化,这是由于运动引起的强度、镜面反射的变化或脉搏引起的细微颜色变化,这些时间变化与光源强度水平成正比。
基于二色反射模型,记录的图像序列中每个皮肤像素的反射可以定义为RGB通道中的时变函数:
镜面反射可以定义为:
漫反射可以定义为:
镜面反射和漫反射
中都包含不随时间改变的静止部分和随时间改变的动态部分,将两种反射的静态部分组合起来,可以表示为:
可以分为固有光强
以及随时间变化的光强
,
和
具有相同的方向,可以表示为:
将以上两式代入原模型,得到皮肤反射模型:
现有的rPPG方法大多是通过对每一帧ROI区域中的像素点进行空间平均来构成时域信号,而足够像素点的空间平均能有效降低相机的量化噪声(即可忽略);同时,相比于相机捕捉的直流分量,交流分量的强度很小。因此,交流分量的乘积项,如
、
等可以忽略不计。考虑以上两点,并将上式展开,可以得到:
为了获取最终的脉搏信号,需要除去照明光的直流分量
以及两个交流分量(光强变化信号
和镜面反射信号
的影响。
至此,观测值变成是三个源信号
、
和
的线性组合。因此,从观察到的RGB信号中提取脉搏信号的任务可以转化为分解
,最终得到含有脉搏信号的
。
rPPG测量方法
现行rPPG测量方法的总体框架可归纳为三个步骤: 视频预处理、rPPG信号恢复和信号后处理,每个步骤可能涉及多个过程,如下图所示。
常用的rPPG方法分为: 无监督(红色)和有监督(蓝色)。
早期无监督rPPG方法
早期的rPPG方法通常涉及直接的信号处理步骤,并不依赖于接触式测量生理信号的监督。
视频预处理和ROI选择
面部检测通常首先用于定位面部区域并去除背景,然后在空间域和时间域选择ROI。
空间域:
- 如上图(a)所示, 前额区域(黄色)比其他面部区域效果更好,因为恢复的rPPG信号具有更高的信噪比。
- 但是,前额可能会被头发或帽子遮挡,所以倾向于使用包含脸颊和鼻子的下面部区域(红色)。
- 另一种解决方案是尽可能多地包含皮肤像素,因为较大的ROI可以产生更稳定的rPPG信号,受随机噪声的影响较小。根据皮肤和非皮肤部分的颜色对比,采用皮肤分割法分割面部区域内的所有皮肤像素(绿色),以进行rPPG测量。
- 如上图(b)所示,另一种方法还采用了从大ROI中划分出的多个小ROI,用于rPPG测量。这些局部ROI可以提供更多来自不同面部区域的协同rPPG线索,并减轻面部遮挡区域的影响。
时间域:
- 一种简单的解决方案是通过在每帧上应用相同的空间ROI选择方法来获得一致的面部皮肤区域。然而,帧级ROI定位算子不稳定,容易受到头部移动和遮挡的影响,从而导致带有高频(HF)伪影的噪声rPPG信号。
- 更好的解决方案是使用跟踪来代替单帧ROI检测,根据面部ROI区域内的多个关键特征点,通过面部序列跟踪预定义的ROI。跟踪能有效地为rPPG测量实现连续且时间稳定的ROI。
rPPG信号恢复
- 最基本方法是逐帧平均所选ROI内所有像素的强度值。
- 关于三个彩色通道,由于绿色通道对应的光波长具有(氧)血红蛋白的吸收峰值,因此从绿色通道恢复的rPPG信号通常优于从红色或蓝色通道恢复的信号。
- 一种解决方案是使用盲源分离(BSS)方法去除噪声,恢复基本目标信号(即rPPG信号)。采用独立成分分析或主成分分析,将原始rPPG信号分解为多个信号源或分量,从中选择周期性或能量最强的一个作为目标rPPG信号。
- 另一种解决方案是颜色空间转移。与原始的红、绿、蓝(RGB)空间相比,色度子空间对运动和亮度的敏感度较低。因此,通过实时调整子空间平面上的精确投影方向来完善原始rPPG信号是可行的。
- 如上图(b)所示, 时空图(STmap)也可以用来分析每一帧,应用基于低秩的自适应矩阵补全(SMAC),以选择高质量的ROI进行rPPG估算,而放弃那些受运动或阴影影响的ROI。
信号后处理
- 由于人的心跳频率通常在0.7~4 Hz之间,因此通常使用具有相应带宽的带通滤波器来提取频域中的rPPG信号。
- 去趋势是另一种常用的方法,可以消除因环境光线变化或白平衡自动调整等原因造成的rPPG信号的缓慢波动。
- 此外,还可以通过自适应滤波进行光照校正,以及通过排除低质量片段来消除非刚性运动,以处理极具挑战性的数据。
总结
早期无监督rPPG方法有以下局限性:
- 需要经验知识来选择设计信号处理滤波器的适当参数。
- 缺乏先进的视频处理工具和有监督学习模型来应对数据变化,尤其是在具有大量干扰的挑战性环境中。
新出现的有监督rPPG方法
有监督范式的视频预处理
- 检测到的人脸序列和提取的STmap是有监督建模的两个最典型输入。
- 从多个预定义ROI提取的STMap可以作为一种精细输入形式,侧重于学习从输入特征图到目标信号的底层映射。与裁剪过的人脸相比,使用STmap输入进行学习的效率更高、收敛更快,因为生成STmap的过程已经收集了原始的rPPG信息,并排除了主要的无关元素(如脸部形状属性)。
- 另一种方法是rPPG专用视频增强技术,通过增强内在的rPPG线索和减少不必要的压缩伪影来处理高度压缩的人脸视频,从而有利于后续的rPPG信号恢复过程。
有监督rPPG信号恢复
包含三个方面:
- 网络架构(涉及模型结构、任务可知输入和ground truth)。
- 损失函数(用于设计合适的约束条件,以有监督模型实现稳健的特征表示)。
- 学习策略(精度、效率和泛化权衡)。
网络结构:
- 二维(空间) 和三维(时空)模型都有应用,二维CNN学习每张人脸的空间rPPG特征,并在各帧之间进行聚合,而三维CNN则利用了输入序列的空间和时间背景。
- DeepPhys是一种采用二维双流卷积注意力网络(CAN)的端到端rPPG方法,其中运动流从相邻帧的归一化差异中探索面部颜色的变化,而外观流则生成面部注意力图,用于提取rPPG特征。
- 基于三维CNN的rPPG网络(rPPGNet)包含一个基于皮肤的注意力模块,用于自适应地选择具有较强 rPPG 信号的皮肤区域。
- 带有时移(TS)-CAN 模块的高效二维CNN,可以用于移动平台上的实时生理测量,减轻了基于三维CNN的时空建模所需的大量参数。
损失函数:
- 时域和频域约束可以用于有监督rPPG模型。
- 时域监督旨在最小化预测rPPG信号与真实信号之间的时间差异强度。有两种典型的时域损失: 均方误差(MSE)损失和负皮尔逊相关(NegPearson)损失。MSE比较估计信号和真实信号之间的平均幅度差异,而NegPearson则侧重于趋势相似性。
- 频域损失假设:在较短的时间跨度(例如<10 s)内,rPPG信号的功率谱密度(PSD)曲线在目标频段(对应于ground truth HR值)附近应为尖锐的(具有较高的振幅),而在其他频段应为相对平坦的(具有较低的振幅)。为了提高rPPG信号的周期性,交叉熵损失用来约束PSD分布进行频率监督。
学习策略:
- 多种学习策略可以用于rPPG测量,包括多任务学习、 解耦学习和元学习。
- 由于rPPG测量任务与其他任务高度相关,例如面部皮肤分割和呼吸测量,学习它们的共同特征可能会使所有任务受益,并减少无关干扰(即多任务学习)。
- rPPGNet采用多任务学习,联合学习了回归rPPG信号和分割面部皮肤区域两个任务,使得学习到的颜色变化更加聚焦于皮肤区域。
- 多个生理信号(rPPG与呼吸)的联合测量在多任务监督学习框架中也证明是有效的。
- 另一种策略是使用解耦学习来消除非生理噪声(如光照变化和传感器噪声等),有一种交叉验证的解耦策略,可以从非生理特征中提取rPPG特征。
- 此外,由于实际的rPPG测量会受到环境、皮肤色调等变化的影响,因此需要考虑域迁移问题,有一种元学习方法可以将一个rPPG模型适应并推广到特定的领域。
有监督信号后处理
有监督信号后处理旨在自适应地利用时间上下文来细化估计的rPPG信号或特征。
一种方法是在相邻的人脸视频片段之间进行长时间的时间建模,因为其生理参数应该是高度相关的:
- 一种时序推理技术(GRU)应用于根据片段级别的时序上下文自适应地优化rPPG特征。
- 也可以使用对抗学习的生成式模型对估计的rPPG信号进行后处理,以降低噪声,提高输出质量。
然而, 并非所有的监督方法都包含明确的预处理和后处理步骤。一些研究倾向于一种集成的端到端方法,将人脸帧作为输入,直接输出rPPG信号。端到端的rPPG方法较少依赖于任务相关的先验知识和手工设计的工程(如STmap生成),而是依赖于多样且大规模的数据来缓解过拟合问题。
基准数据集和评估
2012年之前没有公开的rPPG测量数据集,大多数研究使用的是自己收集的、不共享的小规模数据集。 2012年之后发布了一些公共数据集,以满足rPPG测量研究的需要。rPPG测量的基准数据集汇总如下图所示。
性能评价
大多数现有的方法对每个输入视频在以拍每分钟(bpm)为单位的平均HR上进行性能比较。
常用的评价指标有误差的标准差(SD)、平均绝对误差(MAE)、均方根误差(RMSE)、平均错误率百分比、皮尔逊相关系数(r)等。
下图总结了近期方法的性能。
在情感计算中的应用
面向情感计算的远程生理信号测量
- HCI场景下的情感识别
- 认知压力估计
- 驾驶员状态监测
- 疼痛评估
- 教育活动中的参与度测量
与其他情感计算模态的比较
rPPG信号在情绪测量中具有两个主要优势:
- 生理信号可能是所有模态中最可靠的来源,因为其很难有意地被控制或改变,而人们可以控制自己的面部表情、身体姿势和语音来隐藏情绪,或者在需要的时候传递虚假的情绪。
- 只需要一个彩色摄像头,并且捕获的面部视频可以同时用于rPPG测量和面部表情分析以进行情绪识别。
使用rPPG进行情绪识别的不足:
- 相对于其他视觉模态,如面部表情或身体姿态,rPPG信号较弱,更容易受到光照变化和运动的影响。
- rPPG仅测量心跳,对情绪识别有局限性,如果能够远程测量更多的生理信号,并将其结合起来进行任务,效果会更好。
开放的挑战和未来的方向
开放的挑战
- 现有方法的鲁棒性和泛化能力在实际应用中受到限制。
- 深度学习模型数据规模有限且多样性不足。
- 在情感计算中,除了rPPG的生理信号外,还需要探索其他生理信号的远程测量。
未来的方向
- 设计鲁棒、高效、可解释的rPPG特征表示方法。
- 从有限的或未标记的数据中学习将是有用的。
- 探索将rPPG信号与其他模态融合的多模态方法,以进行更可靠的情感测量。
参考文献
- Wang W, Den Brinker A C, Stuijk S, et al. Algorithmic principles of remote PPG[J]. IEEE Transactions on Biomedical Engineering, 2016, 64(7): 1479-1491.
- Yu Z, Li X, Zhao G. Facial-video-based physiological signal measurement: Recent advances and affective applications[J]. IEEE Signal Processing Magazine, 2021, 38(6): 50-58.