情感语音识别的入门解析

       关于情感语音识别领域的研究距今已有二三十余年的历史。不管是情感语音识别,还是语音情感识别,含义是一样的,都是对带有情感的语音信号进行情感的正确判断。最传统的情感语音识别是基于机器学习下的有监督学习完成的。有监督,即:使用训练集训练处一个模型,然后使用该模型对测试集中的语音信号进行情感状态的正确判断。

       传统的机器学习可以理解为模式识别,即需要通过三个环节来完成操作:数据库、特征参数、识别网络。这三个环节均有大量的文献介绍,其中特征参数这一环节衍生出了很多研究方向,比如:特征选择、特征优化等。

就情感语音识别系统而言

一、数据库的选择有:德国的EMO-DB德语情感语音库、英国的Belfast英语情感语音库、中科院CASIA汉语情感语音库,还有就是某些研究情感语音的高校实验室自主录制的语音库,比如:太原理工大学张雪英老师团队录制的TYUT1.0版本和TYUT2.0版本、北京航空航天大学(这个是阅读文献看到的)。

二、常用的特征参数有:韵律特征、音质特征、基于谱的相关特征。注意:近几年提出的非线性特征(这些特征是基于语音信号发声机制中存在的非线性特性提出的)相较于传统的声学特征有它独有的优势。

①、较典型的韵律特征有:语速、能量、平均过零率、基音频率等;

②、最典型的音质特征是:共振峰,这类特征有很好的识别效果;

③、最典型的基于谱的特征是:MFCC特征(梅尔倒谱系数),这个是经典中的经典,但凡研究语音信号的就应

  • 5
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值