Deep Learning for Depression Recognition with Audiovisual Cues: A Review

抑郁症识别的深度学习方法综述
数据集分语音、单张图片、视频、语音+视频多模态
方法都比较简单,主要是CNN/LSTM+各种attention等来提高准确率,这里主要记录数据处理和一些典型


Audio:

初始数据为wav格式的音频数据,用MFCC(Mel-Frequency Cepstral Coefficents)即梅尔频率倒谱分析,即转换到梅尔频率并做倒谱分析,倒谱分析即做傅里叶变换和反傅里叶变换,具体原理暂且不深究。(补充知识:傅里叶变换可以把信号从时域转换到频域)
输入:wav格式音频数据
输出:MFCC特征,也就是一个矩阵行数为特征向量长度,列数为帧数(帧即为人为分的一个个小片段,也可以说是时间,用带overlap的滑框分)
由于输出的特征是一个矩阵,论文中成为频谱图,Spectrogram,因此可以用CNN做卷积,
在这里插入图片描述

Image:

预处理:人脸识别算法扣出脸部图像(MTCNN\OpenFace\Dilb toolkits)

预训练数据集:CASIA Webface Database 人脸识别数据集
finetune: AVEC2013/2014
(1)
在这里插入图片描述
第一分支:人脸
第二分支:该帧对应的光流

(2)
在这里插入图片描述
先扣脸,然后扣五官,分别预测,做平均

Video

跟单图类似,就是用了3D CNN,意义不大
在这里插入图片描述
也有这样先用C3D提取特征,然后过RNN得到分类结果
另外这也是双流
第一分支:Tight,就是扣出来的脸部
第二分支:Loose,就是完整原图
或者像下面这样脸部和眼部双流的
在这里插入图片描述

Multi-Modal

重点介绍两篇文章:
(1)Multimodal Spatiotemporal Representation for Automatic Depression Level Detection
在这里插入图片描述
STA做一个attention和映射,

<1>STA——Audio分支
在这里插入图片描述
这是Audio分支的STA,输入是一个音频的segmentation,可能是T_A帧,先过一个LSTM相当于提取特征,同时过一个CNN+FC,得到(n,1)的矩阵,这里可以称作空间attention,n为每一帧的向量的长度,即一帧内每个单位的权重,将(n, T_A)转置后与(n, 1)相乘,得到(T_A, 1)的向量,再过一个softmax,得到(T_A, 1),这里可以理解为时间attention,代表每一帧的权重,再和过LSTM后的原始特征相乘,得到最终的结果,过几个FC处理一下

<2>STA——Video分支
在这里插入图片描述
Video分支跟Audio分支类似,只是Video数据相当于3D数据,得先转换成矩阵才好过LSTM,即把每帧图像转换成一个1维向量,这里用的方法是用2D CNN降维,再过Flatten和FC,同时还用label来做监督训练这个特征提取网络,label就是这个video的label,注意,这个特征提取网络是独立于整个STA训练的,应该是先训好了,然后固定权重用于提取特征。变成矩阵之后的过程就和上面一样了。

<3>EEP
没看懂,先简单理解为将所有向量融合成一个的模块

<4>MAFF——multi-modal feature fusion
在这里插入图片描述

就是将ASLF与VLF做相似度计算,得到相似度权重,然后将ASLF中的所有向量加权合并为一个向量,即VAAF,右边同理。
根据作者的解释,这样是提取出了音频中和视频相似的部分,作为视频特征的音频补充,同理还有视频特征中与音频相似的部分,作为音频特征的视频补充,最终四个特征融合到一起做分类。

<5>loss
<2>中的2D CNN是单独训练的,<1><2>中的STA也可以单独训练,但是实际上整个网络应该是用最后的SVR的输出算loss反传的,这里论文中并没有讲太清楚

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值