Deep Learning for Depression Recognition with Audiovisual Cues: A Review
抑郁症识别的深度学习方法综述
数据集分语音、单张图片、视频、语音+视频多模态
方法都比较简单,主要是CNN/LSTM+各种attention等来提高准确率,这里主要记录数据处理和一些典型
Audio:
初始数据为wav格式的音频数据,用MFCC(Mel-Frequency Cepstral Coefficents)即梅尔频率倒谱分析,即转换到梅尔频率并做倒谱分析,倒谱分析即做傅里叶变换和反傅里叶变换,具体原理暂且不深究。(补充知识:傅里叶变换可以把信号从时域转换到频域)
输入:wav格式音频数据
输出:M
原创
2021-10-20 17:17:55 ·
528 阅读 ·
0 评论