文章目录
本文并非逐句翻译,添加个人理解,如有需要,请自行阅读原文。
ADE(自动抑郁症诊断系统)
自动抑郁估计系统 Automatic Depression Estimation systems
文章架构
①ADE 预处理
P62-P64
-
数据收集:介绍了用于收集音频和视频抑郁数据的方法,包括使用计算机或笔记本电脑录制音频片段,以及使用多摄像头从不同角度录制面部和全身视频。还提到了使用基于眼温的热像图和
Microsoft Kinec
t来记录参与者的上半身数据。
-
数据库回顾:讨论了用于抑郁识别的20个数据库(
原文3.2已审查的数据库)
,其中只有8个对公众开放。这些数据库对于开发和评估抑郁评估工具至关重要,且大多数数据库是为特定研究而建立的私有数据集。 -
深度学习架构:概述了用于ADE的深度神经网络(
DNN
)架构,包括卷积神经网络(CNN
)、循环神经网络(RNN
)、长短期记忆网络(LSTM
)、编解码器和自编码器架构、生成对抗网络(GAN
)等。 -
预处理:描述了在音频和视频数据上执行的预处理步骤,例如调整音频采样率(
原文4.1 预处理
)、生成频谱图、使用不同的窗口函数,以及进行面部检测和对齐。 -
研究趋势:指出自2013年以来,基于音频视觉线索的ADE领域的研究出版物数量迅速增加,特别是在2017年之后,深度学习在ADE中的应用受到了极大的关注。
-
特征提取和模型融合:介绍了如何结合手工制作的特征和深度学习特征来提高抑郁识别的性能,包括使用时间-频率通道向量化(
TFCV
)块和DenseNet
结构来提取信息丰富的模式。
②ADE 网络架构
P65-P67
-
传统和深度学习方法在音频抑郁识别中的应用,包括手工特征提取和深度学习模型的使用。
-
描述了
LeNet-5
网络结构,它由卷积层、池化层和全连接层组成,以及编解码器架构的基本构成。 -
长短期记忆网络(
LSTM
)的引入,它通过三个门(输入门、输出门和遗忘门)来解决循环神经网络(RNN)中的梯度消失或爆炸问题。