HNB:ON THE FUSION OF STATIC AND DYNAMIC FEATURES FOR SPEECH EMOTION RECOGNITION - 语音情感识别论文

HIERARCHICAL NETWORK BASED ON THE FUSION OF STATIC AND DYNAMIC FEATURES FOR SPEECH EMOTION RECOGNITION


FEATURES FOR SPEECH EMOTION RECOGNITION)

文章介绍

  • 作者在这里插入图片描述
  • 文章位置
    2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

结构分析

作者主要是将两种特征进行非线性融合来作为输入到层次网络中,其中
静态特征:由语音提取的MFCC
动态特征:一阶差分和二阶差分
  • List item

融合后的特征为h,作为注意力机制的输入
在这里插入图片描述
利用注意力机制来进行对训练中的数据进行QKV的计算,输入到全连接层次中,由softmax 来最后进行分类

  • List item

总结讨论

  • 实验结果:
    从结果上来看使用动态+静态作为输入在WA和UA上都有所提高,结构上3的结构性能是最好的
    List item
    在这里插入图片描述

这篇文章是来自2021年ICASSP中数据增强板块的内容,从结构上来看,作者使用了动静态相结合的方式来作为输入,使用GMU和LSTM等非线性的方式来进行特征融合,不再是使用直接进行叠加等线性结合。这种使用非线性的融合有着不一样的效果,不管结果如何,是作为特征处理的一种不错的尝试,和之前的那篇文章也可以结合起来作为一种方式,不冲突。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值