①Deep Learning for Depression Recognition with Audiovisual Cues: A Review


在这里插入图片描述

图13:DepressNet的架构

图13展示了DepressNet用于ADE(面部情绪检测)任务的架构。具体步骤如下:

  1. 输入图像

    • 输入图像的尺寸为224x224像素。
    • 图像首先通过OpenFace工具包预处理,以确保输入图像的尺度一致。
  2. 卷积层和残差连接

    • 使用了一个类似于ResNet的架构,包含多个卷积层和残差连接。具体配置如下:
      • 7x7卷积层,输出特征图尺寸为112x112。
      • 3x3最大池化层,输出特征图尺寸为56x56。
      • 3个瓶颈块(每个瓶颈块包含3层卷积,输出特征图尺寸为56x56)。
      • 4个瓶颈块(每个瓶颈块包含3层卷积,输出特征图尺寸为28x28)。
      • 6个瓶颈块(每个瓶颈块包含3层卷积,输出特征图尺寸为14x14)。
      • 3个瓶颈块(每个瓶颈块包含3层卷积,输出特征图尺寸为7x7)。
  3. 全局平均池化(GAP)

    • 将7x7的特征图通过全局平均池化层(GAP)变为1x1的特征图,此时特征维度为2048。
  4. 特征融合

    • 最终的2048D特征可以用于后续的任务,例如情绪检测或其他分类任务。
      在这里插入图片描述

图14:Multi-Region DepressNet的架构

图14展示了Multi-Region DepressNet的详细架构,与图13的主要区别在于对图像的处理方式不同。

  1. 输入图像

    • 输入图像通过OpenFace工具包预处理,确保尺度一致。
  2. 面部分割和区域检测

    • 图像被分割成多个区域,而不仅仅是输入一个完整的面部图像。
    • 分割后的图像区域独立输入到多个DepressNet中进行处理。
  3. 区域特征提取

    • 每个区域的特征通过类似于图13的DepressNet架构提取。
    • 每个区域的DepressNet均输出2048D的特征。
  4. 特征融合

    • 将多个区域的特征进行融合,以获得更全面的表情信息。
    • 这些特征与全脸的特征一同用于估计最终的情绪评分(例如BDI-II评分)。

总结

  • DepressNet(图13):直接处理整个面部图像,通过深度卷积网络提取特征。
  • Multi-Region DepressNet(图14):将面部图像分割成多个区域,分别处理每个区域,再融合各个区域的特征,从而获得更详细的表情信息。

这两种架构的设计目的是为了提高情绪检测的精度,其中Multi-Region DepressNet通过处理面部的不同区域,捕捉更多细微的表情变化,从而可能提供更高的检测精度。

这张图包含了两个图示,分别是图15和图16,详细描述了用于评估抑郁严重程度的方法。这些方法主要涉及视频处理、特征提取和模型预测。
在这里插入图片描述

图15:Proposed Method for Estimating Depression Severity

  1. 输入视频

    • 输入视频首先经过处理以获得对齐的人脸图像。
  2. 卷积神经网络(ResNet-50)

    • 使用预训练的ResNet-50模型从对齐的面部图像中提取辨别特征。
    • 这些特征用于表示面部的各种表情信息。
  3. 全局平均池化(GAP)层

    • 特征图经过全局平均池化层(GAP)以减少维度,并获得全局特征向量。
  4. 期望损失

    • 使用期望损失对特征进行加权,以提高模型的辨别能力。
    • 期望损失通过计算预测值与实际值之间的差异来进行权重分配。
  5. 抑郁评分预测

    • 加权后的特征通过一个全连接层(FC层)进行处理,最终输出抑郁评分。
      在这里插入图片描述
      图16:提出的估计抑郁症严重程度的方法,可分为五个步骤:
      1)从视频中提取多通道人类行为基元;
      2)从所有帧将人类行为基元转换为具有多个频率模式的频谱信号;
      3)由于频谱信号的对称性,去除高频模式以保留视频中人类行为的判别信息;
      4)从频谱信号构建多通道幅度热图和多通道相位热图;
      5)DCNN和人工神经网络方法预测抑郁量表。

图16:步骤分解评估抑郁严重程度的方法

  1. 步骤1:多通道人类行为原语转换

    • 从视频中提取多通道人类行为原语,这些原语是指面部表情、姿态等行为信号。
  2. 步骤2:人类行为原语信号的表征

    • 多通道人类行为原语信号转换为频谱信号,使用不同的频带对其进行表征。
  3. 步骤3:多通道幅度和多通道相位表征

    • 频谱信号进一步分解为多通道的幅度和相位信号,以捕捉更多的细节特征。
  4. 步骤4:频谱信号组合

    • 将多通道的幅度和相位信号进行组合形成综合信号,用于表示面部表情的变化。
  5. 步骤5:抑郁评分预测模型

    • 使用深度卷积神经网络(DCNN)和人工神经网络(ANNs)对综合信号进行处理,预测抑郁评分。
    • 定量评估抑郁的严重程度。

总结

  • 图15:使用预处理的视频数据,通过ResNet-50提取面部特征,并通过全局平均池化和期望损失计算预测抑郁评分。
  • 图16:详细分解了抑郁严重程度评估的5个步骤,从多通道人类行为信号的转换到频谱信号的表征,再到使用深度学习模型预测抑郁评分。

这幅图包含了图17和图18,它们详细描述了一种用于评估抑郁严重程度的方法。这些方法结合了外观流和时间流的特征,通过深度学习模型进行多模态融合和预测。

在这里插入图片描述
图 17:采用这种方法来估计抑郁症的严重程度。
外观流将静态图像作为输入,而时间流将图像序列作为输入。
在 ADE 任务中,使用了一种简单的融合方法(即平均池化)来融合两个网络的输出。

图17:Proposed Method for Estimating Depression Severity

方法概述:

  1. 输入图像和视频流

    • 输入数据包括静态图像和时间序列视频流。
  2. 外观流(Appearance Stream)

    • 处理静态图像以提取面部特征。
    • 使用深度卷积神经网络(DCNN)提取静态图像中的辨别性特征。
  3. 时间流(Temporal Stream)

    • 处理时间序列视频流以提取动态行为特征。
    • 使用时序卷积神经网络(TCNN)捕捉视频中的时间动态变化。
  4. 特征融合

    • 将外观流和时间流提取的特征进行融合。
    • 使用简单的融合方法,例如特征平均,来结合这两个网络的输出特征。
  5. 抑郁评分预测

    • 融合后的特征输入到全连接层(FC层)中,生成最终的抑郁评分。
      在这里插入图片描述
      图 18:针对 ADE 提出的 DLGA-CNN 方法。
      面部图像由 OpenFace 工具包获得。
      然后设计一个典型的 DCNN 用于特征表示,以生成具有区分性的特征图。
      为了提取信息特征,设计了局部和全局自注意力网络。
      为了在多尺度特征图上获得尺度不变的特征表示,使用了 WSPP。
      此外,ADE 还采用了两个全连接层和均方误差(MSE)损失平滑器。

图18:DLGA-CNN for ADE

方法概述:

  1. 面部图像输入

    • 使用OpenFace工具包获取输入面部图像并进行预处理。
  2. 深度学习特征提取

    • 通过深度卷积神经网络(DCNN)提取面部图像中的全局特征。
    • 局部特征通过局域自注意网络(Local-Global Attention Network, LGAN)进行提取。
  3. 特征对齐与增强(Self-Attention Mechanism)

    • 使用自注意机制对提取的特征进行对齐和增强。
    • 生成全局增强特征和局部增强特征。
  4. 特征融合与加权和

    • 对全局特征和局部特征进行加权和,生成综合特征表示。
    • 使用加权和机制(Weighted Sum)提升特征表示的辨别能力。
  5. 抑郁评分预测

    • 将综合特征输入到全连接神经网络中,预测最终的抑郁评分。
    • 使用均方误差损失(MSE Loss)来优化模型。

总结

  • 图17:采用外观流和时间流相结合的方法,通过DCNN和TCNN提取静态和动态特征,进行特征融合后预测抑郁评分。
  • 图18:提出的DLGA-CNN方法,通过OpenFace工具提取面部图像,使用DCNN和局域注意机制提取全局和局部特征,进行特征对齐和融合,最终通过全连接网络预测抑郁评分。

这些方法通过结合静态和动态特征、多模态融合和深度学习技术,旨在精确评估抑郁的严重程度。

在这里插入图片描述

图19:使用Deep C3D和RNN从视频中估计抑郁程度的框架流程,该框架在[27]中提出。在两种不同的尺度上提取区分性特征。C3D Tight-Face模型学习紧凑(即高分辨率)的特征表示,而C3D Loose-Face模型则在更大的面部区域上进行训练,以学习全局特征。采用RNN根据C3D Tight-Face和C3D Loose-Face模型的输出来建模时序特征。最后,使用平均操作来生成预测结果。

图19 :方法概述

这幅图(图19)展示了一种从视频中估计抑郁程度的方法,该方法结合了三维卷积神经网络(3D-CNN)和递归神经网络(RNN),具体说明如下:

输入

  • 输入数据是视频帧序列。

特征提取

  • 特征提取过程分为两个尺度:紧特征(Tight Features)和松特征(Loose Features)。
1. 视频帧序列输入
  • 从视频中获取连续的帧序列作为输入。
2. 3D卷积神经网络(C3D-CNN)特征提取
  • 紧特征(Tight Aligned Face Regions)

    • 将视频帧输入到C3D-Tight-Face模型中。
    • 这个模型关注高分辨率(细节)的面部特征。
    • 生成对齐的高分辨率面部区域特征。
    • 输出的特征是时空卷积特征(Spatiotemporal C3D Features)。
  • 松特征(Loose Non-aligned Face Regions)

    • 将视频帧输入到C3D-Loose-Face模型中。
    • 这个模型关注较大区域的面部特征,以捕捉更广泛的面部信息。
    • 生成非对齐的面部特征。
    • 输出的特征也是时空卷积特征(Spatiotemporal C3D Features)。
3. 递归神经网络(RNN)学习
  • 将C3D模型提取的时空卷积特征输入到RNN中,以捕捉时间上的动态变化。

  • 紧特征RNN学习(Tight Feature Learning)

    • 使用RNN对紧特征进行处理。
    • 生成紧特征的序列预测(Sequence Prediction)。
  • 松特征RNN学习(Loose Feature Learning)

    • 使用RNN对松特征进行处理。
    • 生成松特征的序列预测。
4. 特征融合与平均
  • 对紧特征和松特征的序列预测进行融合。
  • 使用平均方法(Mean Fusion)将两个预测结果结合起来。
最终输出
  • 输出的结果是视频中每个时间点的抑郁评分序列。
  • 通过结合多尺度特征和时序信息,模型能够更准确地估计抑郁的严重程度。
总结

此方法利用了C3D-CNN和RNN的联合架构,通过提取和融合不同尺度的时空特征(紧特征和松特征),并结合时间序列动态信息,精确评估视频中被试者的抑郁程度。紧特征捕捉高分辨率细节,松特征捕捉更广范围的面部信息,RNN处理时间动态变化,最终通过特征融合提高了抑郁评估的准确性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值