一种基于对抗学习的端到端的跨语言语音情感识别方法

一种基于对抗学习的端到端的跨语言语音情感识别方法
技术领域
本发明涉及情感识别技术领域,尤其涉及一种基于对抗学习的端到端的跨语言语音情感识别方法。
背景技术
从语音中识别情感有利于构建更自然的人机语音交互系统。传统的方法需要一定的专家知识从语音中提取有效的特征进行情感识别。随着神经网络的兴起,越来越多的研究人员尝试构建基于神经网络的端到端语音情感识别模型,利用神经网络从原始数据(语音波形或语谱图)中直接提取特征用于情感识别。端到端的语音情感识别模型去除了繁琐昂贵的特征工程工作,并在数据规模较大的情况下取得了超越传统方法的效果。
在语音情感识别的研究和应用中,会遇到对多种语言进行情感识别的需求。甚至某些语言的情感数据资源非常丰富(有大量的带情感标签的语音)。而某些语音的情感数据资源相对比较匮乏(语料库中有很少情感标签或没有情感标签)。称情感数据资源丰富的语言为源语言,情感数据资源匮乏的语言成为目标语言。如何根据源语言语音的丰富的情感数据资源,提升模型在目标语言语音上的情感识别性能,即跨语言语音情感识别,一直是一个值得研究的问题。
现有的跨语言语音情感识别方法是基于传统的语音情感识别方法的,需要大量的特征工程或者手工提取特征的工作。
发明内容
本发明为了解决现有技术中语音情感识别方法需要大量的特征工程通过手工提取特征的工作的问题,提供一种基于对抗学习的端到端的跨语言语音情感识别方法。
为了解决上述问题,本发明采用的技术方案如下所述:
一种基于对抗学习的端到端的跨语言语音情感识别方法,包括如下步骤:S1:构建包括特征提取器、情感分类器和语言分类器的情感识别模型,S2:接收原始数据对所述情感识别模型进行训练并在训练过程中使用梯度翻转层;S3:利用训练好的所述情感识别模型预测源语言语音或目标语言语音的情感。
优选地,所述训练过程包括如下步骤:S21:所述特征提取器接收源语言语音和目标语言语音的所述原始数据作为输入并提取特征用于所述情感分类器和所述语言分类器;S22:筛选出对应所述源语言语音的特征作为所述情感分类器的输入得到情感标签,所述源语言语音和所述目标语言语音的特征经过一个梯度翻转层进入所述语言分类器得到语言标签。
优选地,所述源语言语音的数据有情感标签和语言标签;所述目标语言语音的数据仅有语言标签,或有语言标签和情感标签。
优选地,定义损失函数Le和Ll,其中Le根据所述情感分类器的输出与所述情感标签的差异而计算;Ll根据所述语言分类器和所述语言标签的差异而计算,则所述情感识别模型的总的损失函数L=Le+λLl,其中λ为权衡两个算是函数的权重系数。
优选地,所述情感分类器的参数θe按照公式更新,其中μ>0为学习率;所述语言分类器的参数θl按照公式更新;所述特征提取器的参数θf按照公式更新。
优选地,训练过程中使用验证集,所述验证集上的损失函数Le和Ll不再降低时训练结束。
优选地,步骤S3包括如下步骤:S31:将所述源语言语音或所述目标语言语音的原始数据输入到所述特征提取器进行特征提取;
S32:将提取的所述特征输入到情感分类器得到所述源语言语音或所述目标语言语音的情感标签。
优选地&#
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值