HNB：ON THE FUSION OF STATIC AND DYNAMIC FEATURES FOR SPEECH EMOTION RECOGNITION - 语音情感识别论文_hierarchical network based on the fusion of static-CSDN博客

本文链接：https://blog.csdn.net/crh170/article/details/121486105

HIERARCHICAL NETWORK BASED ON THE FUSION OF STATIC AND DYNAMIC FEATURES FOR SPEECH EMOTION RECOGNITION

文章介绍
结构分析
总结讨论

FEATURES FOR SPEECH EMOTION RECOGNITION)

文章介绍

作者
文章位置
2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

结构分析

作者主要是将两种特征进行非线性融合来作为输入到层次网络中，其中
静态特征：由语音提取的MFCC
动态特征：一阶差分和二阶差分

融合后的特征为h，作为注意力机制的输入
在这里插入图片描述
利用注意力机制来进行对训练中的数据进行QKV的计算，输入到全连接层次中，由softmax 来最后进行分类

总结讨论

实验结果：
从结果上来看使用动态+静态作为输入在WA和UA上都有所提高，结构上3的结构性能是最好的

这篇文章是来自2021年ICASSP中数据增强板块的内容，从结构上来看，作者使用了动静态相结合的方式来作为输入，使用GMU和LSTM等非线性的方式来进行特征融合，不再是使用直接进行叠加等线性结合。这种使用非线性的融合有着不一样的效果，不管结果如何，是作为特征处理的一种不错的尝试，和之前的那篇文章也可以结合起来作为一种方式，不冲突。