语音的关键声学特征(语音情感特征提取)

本文概述了语音情感特征提取及其降维方法,重点讨论了基频特征、共振峰特征和Mel频率倒谱系数(MFCC)等声学特性,并介绍了常用的特征降维算法,如PCA和LDA。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

语音情感特征提取及其降维方法综述1

语音传递的信息可以分为两大类:语义信息和声学信息。关注语义方面的研究比较多,但是声学特征也能包含很多关键信息,既可以作为辅助语义信息进行研究和应用,也可以单独进行语音情绪识别投入应用中。

所以我们来看一下语音有哪些关键声学特征。



语音情感特征分类

主要分为三大类

  • 韵律学特征(超音段特征/超语言学特征)

    包括时长相关特征/基频相关特征/能量相关特征等
    在这里插入图片描述

  • 音质特征

  • 基于谱的相关性分析特征
    是声道形状变化和发声运动之间相关性的体现,目前基于谱的相关特征主要有线性预测倒谱系数(LPCC)、Mel频率倒谱系数。

语音情感相关的特征通常由以下这些构成:
在这里插入图片描述

此外,由于不同民族不同语种的情况下情感表达的差异性,以及个体之间说话特征的差异性,还可以把语音情感特征分为个性化/非个性化两类。

个性化语音情感特征:
在这里插入图片描述
个性化语言情感特征是一些直接反映数值的指标,因此人与人之间差异较大,携带了大量个人情感信息,不具有通性。研究较多,实际应用比较困难。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值