语音情感识别常见的声学特征

1.韵律特征
  1. 基于基音频率的特征,包含Jitter,基音频率的包络,基音频率的线性预测系数。
  2. 共振峰特征,包含一阶共振峰,二阶共振峰,以及共振峰的带宽等。
  3.  基于能量的特征,包含 shimmer,4 阶Legendre 参数等。
  4.  时间特征,包含说话部分和不说话部分的比值,最长说话的时间等。
  5. 发音清晰程度的特征。
  6.  声音级别:信号幅度,能量被证明与声音级别有很大的关系。
  7.  短语,音素,单词以及这些特征的边界。
  8.  时间结构。
 
2.谱特征
  1. 短时连贯性(Short Time Coherence,SMC)
  2. 过零幅度峰值(Zeros Crossing Peak Amplitude,ZCPA)
  3. 线性预测倒谱系数(Linear Predictor Cepstral Coefficients,LPCC)
  4. LPC MFCC LSP PLP ,RASTA 感知线性预测倒谱系数(RASTA-PLP)
  5. 最小二乘改进Yule-Walker 方程(Least Squares Modified Yule-Walker Equations,LSMYWE)
  6. 单边自相关线性预测系数(One-sided Autocorrelation Linear PredictorCoefficients,OSALPC)
  7. 单边自相关线性预测倒谱系数(One-side Autocorrelation Linear Predictor Cepstral Coefficients,OSALPCC)
 
 
3.其他特征
  1. 根据发音系统提出的基于Teager 能量算子(Teager Energy Operator,TEO)的语音特征。
  2. 根据语音属于一种非平稳的信号原理,提出的基于经验模态分解(Empirical Mode Decomposition,EMD)的语音特征。
  3. 根据语音信号的混沌程度在缓和的情绪中比较小,在激烈的情绪中比较大的原理,基于分形维(Fractal Dimension)的语音特征。
  4. 另外基于深度学习的语音特征在语音信号处理中的作用越来越大。
  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python声学特提取是指使用Python编程语言来提取音频信号中的种声学特征声学特征是对音频信号进行数分析和处理后得到的一些数值指标,可以用于音频信号的分类、识别、分析等任务。 在Python中,使用一些库和工具来进行声学特征提取,其中最常用的是Librosa和pyAudioAnalysis。 1. Librosa是一个用于音频和音乐信号处理的Python库,它提供了丰富的函数和工具来提取各种声学特征。例如,可以使用Librosa提取音频信号的时域特征(如时长、能量、过零率等)、频域特征(如梅尔频谱系数、色度谱等)以及其他高级特征(音调、节奏等)。Librosa还提供了可视化工具,可以将提取的特征可视化展示出来。 2. pyAudioAnalysis是另一个用于音信号处理和分析的Python库,它提供了一系列函数和工具来进行声学特征提取。pyAudioAnalysis支持多种特征提取方法,包括时域特征、频域特征、光谱特征、时频特征等。此外,pyAudioAnalysis还提供了一些器学习算法,可以用于音频信号的分类和识别。 使用这些库进行声学特征提取的步骤通常包括以下几个步骤: 1. 读取音频文件:使用Python库中的函数读取音频文件,将其转换为音频信号。 2. 预处理:对音频信号进行预处理,如去除噪声、平滑等。 3. 特征提取:使用相应的函数从音频信号中提取所需的声学特征。 4. 特征表示:将提取的特征表示为量或矩阵形式,以便后续处理和分析。 5. 可视化:可选步骤,将提取的特征可视化展示出来,以便更直观地理解和分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值