【论文复现】 | 改善抑郁估计从面部对齐,训练优化和调度

在这里插入图片描述

IMPROVING DEPRESSIONESTIMATION FROM FACIAL VIDEO SWITH FACE
ALIGNMENT TRAINING OPTIMIZATION AND SCHEDULING
标题: 改善抑郁估计从面部对齐,训练优化和调度
数据集:AVEC2013/14/19
实验环境:NVIDIA GeForce RTX 4090 D
文章链接: https://arxiv.org/pdf/2212.06400

在这里插入图片描述

  • 深度学习模型在使用基于视频的面部表达来识别抑郁状态方面显示出有希望的结果。虽然成功的模型通常利用 3D CNN 或视频蒸馏技术,但实验中预训练、数据增强、预处理和优化技术的不同使用使得很难进行公平的架构比较。相反,我们建议采用两种基于ResNet-50的简单模型,这些模型仅使用静态空间信息,通过使用两种特定的人脸对齐方法和改进的数据增强、优化和调度技术。我们在基准数据集上的广泛实验获得了与单一流的复杂时空模型相似的结果,而两个不同流的分数级融合优于最先进的方法。我们的研究结果表明,预处理和训练过程中的特定修改会导致模型性能的明显差异,并可能隐藏最初归因于使用不同神经网络架构的实际结果

视频蒸馏技术在广义上可以理解为一种从视频数据中提取关键信息、压缩数据或进行知识迁移的技术

  • 技术原理 : 视频蒸馏技术可能借鉴了机器学习中的“知识蒸馏”(Knowledge Distillation)概念,即将一个复杂模型(教师模型)的知识迁移到一个更简单、更高效的模型(学生模型)中。在视频处理领域,这可以理解为从原始视频数据中提取出关键帧、特征表示或压缩后的视频流,以便于存储、传输或进一步分析。
  1. 关键帧提取:从视频中自动提取出最具代表性的帧,这些帧能够概括视频的主要内容。
  2. 特征压缩:利用深度学习等方法,将视频中的高维特征压缩为低维表示,同时保留足够的信息以用于后续任务。
  3. 知识迁移:在视频分析、识别等任务中,将复杂模型学习到的知识迁移到轻量级模型中,以提高处理速度和效率。

1、Introduction

  • 抑郁症是一种常见的心理健康障碍,会对个人的幸福感产生负面影响 。长期的医学抑郁症会导致严重的并发症,无论是在心理上还是在生理层面上。
  • 一些研究表明,抑郁症是其他疾病的诱因,如心血管疾病、骨质疏松症、衰老、病理性认知改变、阿尔茨海默病和其他痴呆症,甚至会增加早期死亡的风险。自动识别抑郁症的系统是可取的,因为它们具有潜在的客观性、速度和可靠性,可以避免对患者的健康和福祉产生这种影响。在过去的十年中,已经提出了许多基于经典统计机器学习算法的方法,用于从面部视频、语音和文本数据中识别抑郁症的迹象,以帮助医生做出决策。虽然最新颖的架构在抑郁识别模型的准确性方面显示出明显的提高,但大多数以前的工作都没有讨论或试验机器学习管道的重要组成部分,例如预处理或优化。基于这些缺点,在本文中,我们建议仅使用从面部视频帧中提取的静态纹理特征来创建用于自动抑郁筛查的深度学习模型。在这种情况下,我们建议进行一组更改,以使用这种架构来改善结果。我们的主要贡献可以总结如下:
  • 介绍了一组基于 ResNet-50 架构 的 2D-CNN 模型,该模型仅使用来自视频帧的静态纹理信息进行训练,通过应用两种不同的人脸对齐技术,并评估它们在最终结果中的影响。
  • 探索了新的训练优化和调度方案,以进一步改进以前基于空间信息的类似方法的结果。
  • 建议使用融合评分方法使用不同的基于纹理的模型来回归抑郁水平,这些模型显示是互补的,具体取决于面部对齐。
  • 在AVEC2013数据库和AVEC2014数据库上对模型进行微训练和验证,结果表明,该方法可以获得与复杂时空模型相当的结果,而两种流模型的分数级融合性能优于文献中最先进的方法
  • 最后,发现仅使用基于纹理的模型表明,预处理和训练过程中的微小变化可能会导致模型性能的显着差异,这可能隐藏了归因于神经网络架构差异的真实贡献。

2、Related work

  • 在过去的几年里,计算机视觉已被提议作为诊断临床抑郁症的有效工具,因为它在识别和分析面部症状方面显示出良好的性能,众所周知,这一特征与抑郁密切相关。几项研究表明,抑郁症通过以下方式影响面部表情:抑郁症患者通常表现出积极情绪的强度降低,微笑次数减少,负面情绪强度增加,眼球接触次数减少,眨眼次数减少, 减少转头次数,增加点头次数。
  • 计算机视觉领域的许多研究都提出了基于面部表情分析(FEA)的静态和视频场景下的自动抑郁检测(ADD)方法
  • 特别是,为了识别静态图像中的抑郁表情,提出了基于深度学习模型的方法,从人脸中提取嵌入的情绪,并将图像分为抑郁类或控制类。其他研究提出了一种类似的静态图像方法,但关注的是面部多区域而不是整个面部。
  • 最近,大多数研究都集中在通过利用视频中的面部帧间信息来利用时空信息。一些研究提出了3D-CNN架构,用于从短视频片段中提取时空特征,而另一些研究则提出了时间池化技术,用于捕获视频片段的动态信息并将其编码到图像图中并训练2D-CNN

3、 Proposed methodology

  • 在本文中,建议使用预处理的RGB图像来学习判别表示,以确定一个人的抑郁程度。与文献中的大多数工作相比,我们的工作侧重于输入数据的预处理和数据增强技术,并保持相同的骨干网络,即预训练的 ResNet-50 架构

3.1. Preprocessing and face alignment

  • 预处理和人脸对齐:方法的第一步包括从每个视频帧中分割和对齐面部区域。使用最先进的人脸检测器,即基于深度学习的多任务级联卷积网络(MTCNN,它还通过检测眼睛、鼻子和嘴巴中的五个基准点来提供人脸对齐。从相关文献中可以看出,典型的人脸预处理是基于裁剪、对齐和重新缩放图像。但是,裁剪和对齐面部的顺序对最终结果图像有直接影响。在旋转和对齐之前裁剪面部区域会删除边界处的纹理区域
  • <
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值