①Deep Learning for Depression Recognition with Audiovisual Cues: A Review

dearRongerr

已于 2024-08-07 21:42:18 修改

阅读量154

点赞数 1

分类专栏：读文献文章标签：深度学习人工智能

于 2024-07-21 13:43:14 首次发布

本文链接：https://blog.csdn.net/2301_77549977/article/details/140587210

版权

读文献专栏收录该内容

18 篇文章 0 订阅

订阅专栏

文章目录

图13：DepressNet的架构

图13展示了DepressNet用于ADE（面部情绪检测）任务的架构。具体步骤如下：

输入图像：
- 输入图像的尺寸为224x224像素。
- 图像首先通过OpenFace工具包预处理，以确保输入图像的尺度一致。
卷积层和残差连接：
- 使用了一个类似于ResNet的架构，包含多个卷积层和残差连接。具体配置如下：
  - 7x7卷积层，输出特征图尺寸为112x112。
  - 3x3最大池化层，输出特征图尺寸为56x56。
  - 3个瓶颈块（每个瓶颈块包含3层卷积，输出特征图尺寸为56x56）。
  - 4个瓶颈块（每个瓶颈块包含3层卷积，输出特征图尺寸为28x28）。
  - 6个瓶颈块（每个瓶颈块包含3层卷积，输出特征图尺寸为14x14）。
  - 3个瓶颈块（每个瓶颈块包含3层卷积，输出特征图尺寸为7x7）。
全局平均池化（GAP）：
- 将7x7的特征图通过全局平均池化层（GAP）变为1x1的特征图，此时特征维度为2048。
特征融合：
- 最终的2048D特征可以用于后续的任务，例如情绪检测或其他分类任务。

图14：Multi-Region DepressNet的架构

图14展示了Multi-Region DepressNet的详细架构，与图13的主要区别在于对图像的处理方式不同。

输入图像：
- 输入图像通过OpenFace工具包预处理，确保尺度一致。
面部分割和区域检测：
- 图像被分割成多个区域，而不仅仅是输入一个完整的面部图像。
- 分割后的图像区域独立输入到多个DepressNet中进行处理。
区域特征提取：
- 每个区域的特征通过类似于图13的DepressNet架构提取。
- 每个区域的DepressNet均输出2048D的特征。
特征融合：
- 将多个区域的特征进行融合，以获得更全面的表情信息。
- 这些特征与全脸的特征一同用于估计最终的情绪评分（例如BDI-II评分）。

总结

DepressNet（图13）：直接处理整个面部图像，通过深度卷积网络提取特征。
Multi-Region DepressNet（图14）：将面部图像分割成多个区域，分别处理每个区域，再融合各个区域的特征，从而获得更详细的表情信息。

这两种架构的设计目的是为了提高情绪检测的精度，其中Multi-Region DepressNet通过处理面部的不同区域，捕捉更多细微的表情变化，从而可能提供更高的检测精度。

这张图包含了两个图示，分别是图15和图16，详细描述了用于评估抑郁严重程度的方法。这些方法主要涉及视频处理、特征提取和模型预测。
在这里插入图片描述

图15：Proposed Method for Estimating Depression Severity

输入视频：
- 输入视频首先经过处理以获得对齐的人脸图像。
卷积神经网络（ResNet-50）：
- 使用预训练的ResNet-50模型从对齐的面部图像中提取辨别特征。
- 这些特征用于表示面部的各种表情信息。
全局平均池化（GAP）层：
- 特征图经过全局平均池化层（GAP）以减少维度，并获得全局特征向量。
期望损失：
- 使用期望损失对特征进行加权，以提高模型的辨别能力。
- 期望损失通过计算预测值与实际值之间的差异来进行权重分配。
抑郁评分预测：
- 加权后的特征通过一个全连接层（FC层）进行处理，最终输出抑郁评分。
  
  图16：提出的估计抑郁症严重程度的方法，可分为五个步骤：
  1）从视频中提取多通道人类行为基元；
  2）从所有帧将人类行为基元转换为具有多个频率模式的频谱信号；
  3）由于频谱信号的对称性，去除高频模式以保留视频中人类行为的判别信息；
  4）从频谱信号构建多通道幅度热图和多通道相位热图；
  5）DCNN和人工神经网络方法预测抑郁量表。

图16：步骤分解评估抑郁严重程度的方法

步骤1：多通道人类行为原语转换：
- 从视频中提取多通道人类行为原语，这些原语是指面部表情、姿态等行为信号。
步骤2：人类行为原语信号的表征：
- 多通道人类行为原语信号转换为频谱信号，使用不同的频带对其进行表征。
步骤3：多通道幅度和多通道相位表征：
- 频谱信号进一步分解为多通道的幅度和相位信号，以捕捉更多的细节特征。
步骤4：频谱信号组合：
- 将多通道的幅度和相位信号进行组合形成综合信号，用于表示面部表情的变化。
步骤5：抑郁评分预测模型：
- 使用深度卷积神经网络（DCNN）和人工神经网络（ANNs）对综合信号进行处理，预测抑郁评分。
- 定量评估抑郁的严重程度。

总结

图15：使用预处理的视频数据，通过ResNet-50提取面部特征，并通过全局平均池化和期望损失计算预测抑郁评分。
图16：详细分解了抑郁严重程度评估的5个步骤，从多通道人类行为信号的转换到频谱信号的表征，再到使用深度学习模型预测抑郁评分。

这幅图包含了图17和图18，它们详细描述了一种用于评估抑郁严重程度的方法。这些方法结合了外观流和时间流的特征，通过深度学习模型进行多模态融合和预测。

在这里插入图片描述
图 17：采用这种方法来估计抑郁症的严重程度。
外观流将静态图像作为输入，而时间流将图像序列作为输入。
在 ADE 任务中，使用了一种简单的融合方法（即平均池化）来融合两个网络的输出。

图17：Proposed Method for Estimating Depression Severity

方法概述：

输入图像和视频流：
- 输入数据包括静态图像和时间序列视频流。
外观流（Appearance Stream）：
- 处理静态图像以提取面部特征。
- 使用深度卷积神经网络（DCNN）提取静态图像中的辨别性特征。
时间流（Temporal Stream）：
- 处理时间序列视频流以提取动态行为特征。
- 使用时序卷积神经网络（TCNN）捕捉视频中的时间动态变化。
特征融合：
- 将外观流和时间流提取的特征进行融合。
- 使用简单的融合方法，例如特征平均，来结合这两个网络的输出特征。
抑郁评分预测：
- 融合后的特征输入到全连接层（FC层）中，生成最终的抑郁评分。
  
  图 18：针对 ADE 提出的 DLGA-CNN 方法。
  面部图像由 OpenFace 工具包获得。
  然后设计一个典型的 DCNN 用于特征表示，以生成具有区分性的特征图。
  为了提取信息特征，设计了局部和全局自注意力网络。
  为了在多尺度特征图上获得尺度不变的特征表示，使用了 WSPP。
  此外，ADE 还采用了两个全连接层和均方误差（MSE）损失平滑器。

图18：DLGA-CNN for ADE

方法概述：

面部图像输入：
- 使用OpenFace工具包获取输入面部图像并进行预处理。
深度学习特征提取：
- 通过深度卷积神经网络（DCNN）提取面部图像中的全局特征。
- 局部特征通过局域自注意网络（Local-Global Attention Network, LGAN）进行提取。
特征对齐与增强（Self-Attention Mechanism）：
- 使用自注意机制对提取的特征进行对齐和增强。
- 生成全局增强特征和局部增强特征。
特征融合与加权和：
- 对全局特征和局部特征进行加权和，生成综合特征表示。
- 使用加权和机制（Weighted Sum）提升特征表示的辨别能力。
抑郁评分预测：
- 将综合特征输入到全连接神经网络中，预测最终的抑郁评分。
- 使用均方误差损失（MSE Loss）来优化模型。

总结

图17：采用外观流和时间流相结合的方法，通过DCNN和TCNN提取静态和动态特征，进行特征融合后预测抑郁评分。
图18：提出的DLGA-CNN方法，通过OpenFace工具提取面部图像，使用DCNN和局域注意机制提取全局和局部特征，进行特征对齐和融合，最终通过全连接网络预测抑郁评分。

这些方法通过结合静态和动态特征、多模态融合和深度学习技术，旨在精确评估抑郁的严重程度。

在这里插入图片描述

图19：使用Deep C3D和RNN从视频中估计抑郁程度的框架流程，该框架在[27]中提出。在两种不同的尺度上提取区分性特征。C3D Tight-Face模型学习紧凑（即高分辨率）的特征表示，而C3D Loose-Face模型则在更大的面部区域上进行训练，以学习全局特征。采用RNN根据C3D Tight-Face和C3D Loose-Face模型的输出来建模时序特征。最后，使用平均操作来生成预测结果。

图19 ：方法概述

这幅图（图19）展示了一种从视频中估计抑郁程度的方法，该方法结合了三维卷积神经网络（3D-CNN）和递归神经网络（RNN），具体说明如下：

输入：

输入数据是视频帧序列。

特征提取：

特征提取过程分为两个尺度：紧特征（Tight Features）和松特征（Loose Features）。

1. 视频帧序列输入

从视频中获取连续的帧序列作为输入。

2. 3D卷积神经网络（C3D-CNN）特征提取

紧特征（Tight Aligned Face Regions）：
- 将视频帧输入到C3D-Tight-Face模型中。
- 这个模型关注高分辨率（细节）的面部特征。
- 生成对齐的高分辨率面部区域特征。
- 输出的特征是时空卷积特征（Spatiotemporal C3D Features）。
松特征（Loose Non-aligned Face Regions）：
- 将视频帧输入到C3D-Loose-Face模型中。
- 这个模型关注较大区域的面部特征，以捕捉更广泛的面部信息。
- 生成非对齐的面部特征。
- 输出的特征也是时空卷积特征（Spatiotemporal C3D Features）。

3. 递归神经网络（RNN）学习

将C3D模型提取的时空卷积特征输入到RNN中，以捕捉时间上的动态变化。
紧特征RNN学习（Tight Feature Learning）：
- 使用RNN对紧特征进行处理。
- 生成紧特征的序列预测（Sequence Prediction）。
松特征RNN学习（Loose Feature Learning）：
- 使用RNN对松特征进行处理。
- 生成松特征的序列预测。