文章目录
图13:DepressNet的架构
图13展示了DepressNet用于ADE(面部情绪检测)任务的架构。具体步骤如下:
-
输入图像:
- 输入图像的尺寸为224x224像素。
- 图像首先通过OpenFace工具包预处理,以确保输入图像的尺度一致。
-
卷积层和残差连接:
- 使用了一个类似于ResNet的架构,包含多个卷积层和残差连接。具体配置如下:
- 7x7卷积层,输出特征图尺寸为112x112。
- 3x3最大池化层,输出特征图尺寸为56x56。
- 3个瓶颈块(每个瓶颈块包含3层卷积,输出特征图尺寸为56x56)。
- 4个瓶颈块(每个瓶颈块包含3层卷积,输出特征图尺寸为28x28)。
- 6个瓶颈块(每个瓶颈块包含3层卷积,输出特征图尺寸为14x14)。
- 3个瓶颈块(每个瓶颈块包含3层卷积,输出特征图尺寸为7x7)。
- 使用了一个类似于ResNet的架构,包含多个卷积层和残差连接。具体配置如下:
-
全局平均池化(GAP):
- 将7x7的特征图通过全局平均池化层(GAP)变为1x1的特征图,此时特征维度为2048。
-
特征融合:
- 最终的2048D特征可以用于后续的任务,例如情绪检测或其他分类任务。
- 最终的2048D特征可以用于后续的任务,例如情绪检测或其他分类任务。
图14:Multi-Region DepressNet的架构
图14展示了Multi-Region DepressNet的详细架构,与图13的主要区别在于对图像的处理方式不同。
-
输入图像:
- 输入图像通过OpenFace工具包预处理,确保尺度一致。
-
面部分割和区域检测:
- 图像被分割成多个区域,而不仅仅是输入一个完整的面部图像。
- 分割后的图像区域独立输入到多个DepressNet中进行处理。
-
区域特征提取:
- 每个区域的特征通过类似于图13的DepressNet架构提取。
- 每个区域的DepressNet均输出2048D的特征。
-
特征融合:
- 将多个区域的特征进行融合,以获得更全面的表情信息。
- 这些特征与全脸的特征一同用于估计最终的情绪评分(例如BDI-II评分)。
总结
- DepressNet(图13):直接处理整个面部图像,通过深度卷积网络提取特征。
- Multi-Region DepressNet(图14):将面部图像分割成多个区域,分别处理每个区域,再融合各个区域的特征,从而获得更详细的表情信息。
这两种架构的设计目的是为了提高情绪检测的精度,其中Multi-Region DepressNet通过处理面部的不同区域,捕捉更多细微的表情变化,从而可能提供更高的检测精度。
这张图包含了两个图示,分别是图15和图16,详细描述了用于评估抑郁严重程度的方法。这些方法主要涉及视频处理、特征提取和模型预测。
图15:Proposed Method for Estimating Depression Severity
-
输入视频:
- 输入视频首先经过处理以获得对齐的人脸图像。
-
卷积神经网络(ResNet-50):
- 使用预训练的ResNet-50模型从对齐的面部图像中提取辨别特征。
- 这些特征用于表示面部的各种表情信息。
-
全局平均池化(GAP)层:
- 特征图经过全局平均池化层(GAP)以减少维度,并获得全局特征向量。
-
期望损失:
- 使用期望损失对特征进行加权,以提高模型的辨别能力。
- 期望损失通过计算预测值与实际值之间的差异来进行权重分配。
-
抑郁评分预测:
- 加权后的特征通过一个全连接层(FC层)进行处理,最终输出抑郁评分。
图16:提出的估计抑郁症严重程度的方法,可分为五个步骤:
1)从视频中提取多通道人类行为基元;
2)从所有帧将人类行为基元转换为具有多个频率模式的频谱信号;
3)由于频谱信号的对称性,去除高频模式以保留视频中人类行为的判别信息;
4)从频谱信号构建多通道幅度热图和多通道相位热图;
5)DCNN和人工神经网络方法预测抑郁量表。
- 加权后的特征通过一个全连接层(FC层)进行处理,最终输出抑郁评分。
图16:步骤分解评估抑郁严重程度的方法
-
步骤1:多通道人类行为原语转换:
- 从视频中提取多通道人类行为原语,这些原语是指面部表情、姿态等行为信号。
-
步骤2:人类行为原语信号的表征:
- 多通道人类行为原语信号转换为频谱信号,使用不同的频带对其进行表征。
-
步骤3:多通道幅度和多通道相位表征:
- 频谱信号进一步分解为多通道的幅度和相位信号,以捕捉更多的细节特征。
-
步骤4:频谱信号组合:
- 将多通道的幅度和相位信号进行组合形成综合信号,用于表示面部表情的变化。
-
步骤5:抑郁评分预测模型:
- 使用深度卷积神经网络(DCNN)和人工神经网络(ANNs)对综合信号进行处理,预测抑郁评分。
- 定量评估抑郁的严重程度。
总结
- 图15:使用预处理的视频数据,通过ResNet-50提取面部特征,并通过全局平均池化和期望损失计算预测抑郁评分。
- 图16:详细分解了抑郁严重程度评估的5个步骤,从多通道人类行为信号的转换到频谱信号的表征,再到使用深度学习模型预测抑郁评分。
这幅图包含了图17和图18,它们详细描述了一种用于评估抑郁严重程度的方法。这些方法结合了外观流和时间流的特征,通过深度学习模型进行多模态融合和预测。
图 17:采用这种方法来估计抑郁症的严重程度。
外观流将静态图像作为输入,而时间流将图像序列作为输入。
在 ADE 任务中,使用了一种简单的融合方法(即平均池化)来融合两个网络的输出。
图17:Proposed Method for Estimating Depression Severity
方法概述:
-
输入图像和视频流:
- 输入数据包括静态图像和时间序列视频流。
-
外观流(Appearance Stream):
- 处理静态图像以提取面部特征。
- 使用深度卷积神经网络(DCNN)提取静态图像中的辨别性特征。
-
时间流(Temporal Stream):
- 处理时间序列视频流以提取动态行为特征。
- 使用时序卷积神经网络(TCNN)捕捉视频中的时间动态变化。
-
特征融合:
- 将外观流和时间流提取的特征进行融合。
- 使用简单的融合方法,例如特征平均,来结合这两个网络的输出特征。
-
抑郁评分预测:
- 融合后的特征输入到全连接层(FC层)中,生成最终的抑郁评分。
图 18:针对 ADE 提出的 DLGA-CNN 方法。
面部图像由 OpenFace 工具包获得。
然后设计一个典型的 DCNN 用于特征表示,以生成具有区分性的特征图。
为了提取信息特征,设计了局部和全局自注意力网络。
为了在多尺度特征图上获得尺度不变的特征表示,使用了 WSPP。
此外,ADE 还采用了两个全连接层和均方误差(MSE)损失平滑器。
- 融合后的特征输入到全连接层(FC层)中,生成最终的抑郁评分。
图18:DLGA-CNN for ADE
方法概述:
-
面部图像输入:
- 使用OpenFace工具包获取输入面部图像并进行预处理。
-
深度学习特征提取:
- 通过深度卷积神经网络(DCNN)提取面部图像中的全局特征。
- 局部特征通过局域自注意网络(Local-Global Attention Network, LGAN)进行提取。
-
特征对齐与增强(Self-Attention Mechanism):
- 使用自注意机制对提取的特征进行对齐和增强。
- 生成全局增强特征和局部增强特征。
-
特征融合与加权和:
- 对全局特征和局部特征进行加权和,生成综合特征表示。
- 使用加权和机制(Weighted Sum)提升特征表示的辨别能力。
-
抑郁评分预测:
- 将综合特征输入到全连接神经网络中,预测最终的抑郁评分。
- 使用均方误差损失(MSE Loss)来优化模型。
总结
- 图17:采用外观流和时间流相结合的方法,通过DCNN和TCNN提取静态和动态特征,进行特征融合后预测抑郁评分。
- 图18:提出的DLGA-CNN方法,通过OpenFace工具提取面部图像,使用DCNN和局域注意机制提取全局和局部特征,进行特征对齐和融合,最终通过全连接网络预测抑郁评分。
这些方法通过结合静态和动态特征、多模态融合和深度学习技术,旨在精确评估抑郁的严重程度。
图19:使用Deep C3D和RNN从视频中估计抑郁程度的框架流程,该框架在[27]中提出。在两种不同的尺度上提取区分性特征。C3D Tight-Face模型学习紧凑(即高分辨率)的特征表示,而C3D Loose-Face模型则在更大的面部区域上进行训练,以学习全局特征。采用RNN根据C3D Tight-Face和C3D Loose-Face模型的输出来建模时序特征。最后,使用平均操作来生成预测结果。
图19 :方法概述
这幅图(图19)展示了一种从视频中估计抑郁程度的方法,该方法结合了三维卷积神经网络(3D-CNN)和递归神经网络(RNN),具体说明如下:
输入:
- 输入数据是视频帧序列。
特征提取:
- 特征提取过程分为两个尺度:紧特征(Tight Features)和松特征(Loose Features)。
1. 视频帧序列输入
- 从视频中获取连续的帧序列作为输入。
2. 3D卷积神经网络(C3D-CNN)特征提取
-
紧特征(Tight Aligned Face Regions):
- 将视频帧输入到C3D-Tight-Face模型中。
- 这个模型关注高分辨率(细节)的面部特征。
- 生成对齐的高分辨率面部区域特征。
- 输出的特征是时空卷积特征(Spatiotemporal C3D Features)。
-
松特征(Loose Non-aligned Face Regions):
- 将视频帧输入到C3D-Loose-Face模型中。
- 这个模型关注较大区域的面部特征,以捕捉更广泛的面部信息。
- 生成非对齐的面部特征。
- 输出的特征也是时空卷积特征(Spatiotemporal C3D Features)。
3. 递归神经网络(RNN)学习
-
将C3D模型提取的时空卷积特征输入到RNN中,以捕捉时间上的动态变化。
-
紧特征RNN学习(Tight Feature Learning):
- 使用RNN对紧特征进行处理。
- 生成紧特征的序列预测(Sequence Prediction)。
-
松特征RNN学习(Loose Feature Learning):
- 使用RNN对松特征进行处理。
- 生成松特征的序列预测。
4. 特征融合与平均
- 对紧特征和松特征的序列预测进行融合。
- 使用平均方法(Mean Fusion)将两个预测结果结合起来。
最终输出
- 输出的结果是视频中每个时间点的抑郁评分序列。
- 通过结合多尺度特征和时序信息,模型能够更准确地估计抑郁的严重程度。
总结
此方法利用了C3D-CNN和RNN的联合架构,通过提取和融合不同尺度的时空特征(紧特征和松特征),并结合时间序列动态信息,精确评估视频中被试者的抑郁程度。紧特征捕捉高分辨率细节,松特征捕捉更广范围的面部信息,RNN处理时间动态变化,最终通过特征融合提高了抑郁评估的准确性。