HIERARCHICAL NETWORK BASED ON THE FUSION OF STATIC AND DYNAMIC FEATURES FOR SPEECH EMOTION RECOGNITION
FEATURES FOR SPEECH EMOTION RECOGNITION)
文章介绍
- 作者
- 文章位置
2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
结构分析
作者主要是将两种特征进行非线性融合来作为输入到层次网络中,其中
静态特征:由语音提取的MFCC
动态特征:一阶差分和二阶差分
融合后的特征为h,作为注意力机制的输入
利用注意力机制来进行对训练中的数据进行QKV的计算,输入到全连接层次中,由softmax 来最后进行分类
总结讨论
- 实验结果:
从结果上来看使用动态+静态作为输入在WA和UA上都有所提高,结构上3的结构性能是最好的
这篇文章是来自2021年ICASSP中数据增强板块的内容,从结构上来看,作者使用了动静态相结合的方式来作为输入,使用GMU和LSTM等非线性的方式来进行特征融合,不再是使用直接进行叠加等线性结合。这种使用非线性的融合有着不一样的效果,不管结果如何,是作为特征处理的一种不错的尝试,和之前的那篇文章也可以结合起来作为一种方式,不冲突。