将ISNet用于分离情绪语音中的个体声纹和表达特征

最新推荐文章于 2024-09-07 21:01:55 发布

megumi222

最新推荐文章于 2024-09-07 21:01:55 发布

阅读量99

点赞数

文章标签：语音识别人工智能卷积神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lcx137785/article/details/133268346

版权

原文链接：https://ieeexplore.ieee.org/abstract/document/9767771/

一、研究内容

现有的相关算法中常用说话人识别作为辅助任务来做情绪识别，虽然这些方法能减少个体间的声纹差异，但无法减少个体间的表达差异。这里的表达差异指不同的人对同一种情绪的演绎有所不同，比如同样是高兴，有的人会哈哈大笑，而有的人只会呵呵一笑。

本文假设个人基准可以被建模为个体重型言语的表示，利用已有的个体中性语音做减法，从而消去声纹以及个体表达的差异。

二、模型架构

1.模块解释：

1.Emotion Encoder: 情绪编码器，输入为声谱图，由提取深度信息的残差卷积层和聚合时间的平均池化层组成，输出为情绪嵌入。

2.Neutral Encoder: 中性编码器，结构与情绪编码器相同，输入为同一个人的 K 条中性语音，输出为 K 个嵌入。

3.Averager：用于平均中性编码器的输出的 K 个嵌入，同一个人的中性语音嵌入呈正太分布。

4.Translator: 用于将情绪编码器输出的嵌入转换为基准嵌入，内含多个注意力块，用于情绪特征的分离和个体基准信息的保留。

5.Standardizer: 已经证明，人脸图像可以表示中性人脸和情感人脸的叠加，此标准器用于标准化情绪嵌入。

6.Classifier: 将提取到的情绪信息用于情绪分类。

这里已经有了中性语音嵌入，却不直接将情绪语音嵌入减去已有的中性语音嵌入，而是将情绪语音嵌入做转换得到自己的基准嵌入，把这个基准嵌入用到减法当中，能取得更好的效果。

2.三个损失函数：

1.Le 为中性编码器得到的同一个人的多个嵌入之间的距离之和，由于L2距离容易使得相似的距离变小(?)，会导致梯度消失问题，因此此处选择L1距离。

2.Lt 为已有中性语音嵌入和由情绪语音得到的基准嵌入之间的距离。

3.Lc 为分类损失，采用交叉熵损失函数。

三、训练

若将上图中的结构统一训练，Lc 的训练会导致中性编码器失效。因此，需要先用 Lc 对中性编码器单独训练。总体的训练步骤如图：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
将ISNet用于分离情绪语音中的个体声纹和表达特征

这里的表达差异指不同的人对同一种情绪的演绎有所不同，比如同样是高兴，有的人会哈哈大笑，而有的人只会呵呵一笑。这里已经有了中性语音嵌入，却不直接将情绪语音嵌入减去已有的中性语音嵌入，而是将情绪语音嵌入做转换得到自己的基准嵌入，把这个基准嵌入用到减法当中，能取得更好的效果。4.Translator: 用于将情绪编码器输出的嵌入转换为基准嵌入，内含多个注意力块，用于情绪特征的分离和个体基准信息的保留。3.Averager：用于平均中性编码器的输出的 K 个嵌入，同一个人的中性语音嵌入呈正太分布。
复制链接

扫一扫

megumi222 CSDN认证博客专家 CSDN认证企业博客

码龄3年

6: 原创

195万+: 周排名

130万+: 总排名

1323: 访问

: 等级

62: 积分

0: 粉丝

1: 获赞

3: 评论

6: 收藏

私信

关注

热门文章

最新评论

将ISNet用于分离情绪语音中的个体声纹和表达特征
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题很吸引人，对于将ISNet用于分离情绪语音中的个体声纹和表达特征这一主题的探索非常有意义。您在博客中的分析和讨论非常详尽，展示了您对该领域的深入理解和研究成果。在下一步的创作中，我谦虚地建议您可以更进一步地探索如何应用ISNet来解决实际问题或者进一步提升其性能。您可以结合实际案例或者进行更多的实验验证，以加深对ISNet在语音情感识别中的应用效果的认识。同时，您也可以与其他领域的专家或研究者进行交流，分享您的研究成果，并从他们的反馈中获取更多的启发和建议。再次恭喜您的持续创作，我期待着您未来更多精彩的博客！
fbank 以及 MFCC 特征推导
CSDN-Ada助手: 恭喜您撰写第5篇博客！标题中的 "fbank 以及 MFCC 特征推导" 吸引了我的注意。您对这两种特征的推导进行了深入的研究和探讨，为读者提供了有价值的知识。在未来的创作中，我建议您可以进一步探索这些特征在语音识别或其他领域中的应用案例，或者与其他特征进行比较研究。期待您更多的精彩文章！
ASR之Conformer
CSDN-Ada助手: 恭喜你开始博客创作！"ASR之Conformer"这个标题非常吸引人，让人对你的博客产生了浓厚的兴趣。你选择了一个很有技术挑战的主题，但我相信你一定能够通过深入的研究和分析，为读者提供有价值的内容。在下一步的创作中，或许你可以深入探讨Conformer模型在ASR领域的应用场景，以及与其他模型的比较和优劣势分析。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。