语音情感识别

语音情感识别通过特征提取和分类器构建,识别语音中的情感状态。常用特征包括能量、音高和MFCC,早期方法涉及GMM、HMM和SVM,现主流使用LSTM和端到端模型。该技术在客服等领域有应用,但面临数据标注困难、特征选择挑战和主观性问题。未来将发展多语言、跨语言识别及更复杂的感情识别。
摘要由CSDN通过智能技术生成

描述:

语音情感识别通常指机器从语音中自动识别人类情感和情感相关状态的过程。

这一过程最主要的两大步骤是特征提取与构建分类器。在特征提取步骤中,最常用的有能量(energy),音高(pitch),梅尔频率倒谱系数(MFCC)等语音特征。语音情感识别发展至今,特征提取依然尚未成熟,目前最为普及的特征集有INTERSPEECH 2009 Emotion Challenge和 INTERSPEECH 2013 Paralinguistics Challenge中主办方选取的特征集以及语音信号处理工具openSMILE中的特征集等。

构建分类器步骤则是机器学习的环节。过去常用的分类器有高斯混合模型(GMM),隐马尔可夫模型(HMM),支持向量机(SVM)等经典的机器学习方法。得益于神经网络的发展,长短时记忆模型(LSTM),注意力机制等方法取代了经典方法成为了主流。近年,端到端(end-to-end)的方法开始被应用,简化甚至省略了特征提取的步骤。

基本的语音情感识别流程如下图所示:

语音信号首先通过语音处理系统被转化为可读的多种物理特征(音高,能量等),每一段语音信号都有其独特的特征。这些特征中会有一部分经过人为选择,被系统提取,输入到预先训练好的分类器中进行判别,输出情感状态的结果。

1554863464764.png

以下的例子可以帮助理解什么是语音情感识别࿱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值