【音频特征】语音特征小结

本文详细介绍了语音识别中的韵律特征和谱特征,包括基频、语速、能量、MFCC、共振峰等,以及特征集如GeMAPS、eGeMAPS、ComParE,这些特征在语音处理和识别领域扮演着重要角色。
摘要由CSDN通过智能技术生成


前言

本文汇总了一些常见或不常见的语音特征。

1. 特征汇总

1.1 韵律特征(prosodic feature)

包含语音中音高、语调、能量、节奏变化等重要信息,表现为人昕觉系统感知到的“抑扬顿挫”,在语音信号处理的许多领域都有应用。基音频率、语速、能量等都是常用的韵律学特征。

基音频率(fundamental frequency, F0)是指发浊音时声带振动的频率,简称基频。人发声过程中来自肺部的气流冲击声门,形成一系列准周期的气流脉冲,经过声道的谐振及唇齿辐射最终形成语音信号,故浊音波形呈现一定的准周期性,这个周期就是基音周期,它和基频成倒数关系。基频变化范围很大,受性别、年龄、情绪等多种因素的影响。一般而言,男性的基频范围是135-185Hz,女性在260-350Hz之间。

基频检测方法主要有三类:1、时域:基于过零率,自相关等,最好的是YIN/PYIN算法。2、频域:倒谱,谐波,最佳梳妆滤波器等。3、统计方法:最大似然,rnn,HMM等都有。

语速(speaking rate) 特征表达了讲话速度的快慢,可以定义为单位时间内发音的词汇(或者音节)个数。语速受文化、环境、思维和表达能力多种因素的影响。和语速密切相关的因素还有停顿,是否考虑语段中的停顿对语速的计算数值有明显影响。

能量(energy)是与语音音量(或者说幅度)相关的声学特征。能量特征包含丰富的情感信息,比如人在悲伤时语音的能量通常会比较低。很早以前 vad(voice active detection) 中有一种检测语音方法:能量大的是语音,能量小的是噪声。当然,这种vad局限性非常大,用途很窄。

过零率 (zero-crossing rate) 核心点是计算信号跨越零点的次数,早期用于vad,判别语音和噪声,局限性也较大。

1.2 谱特征(spectral feature)

含义相对宽泛,通常包含了语音信号的频谱、功率谱、倒频谱、频谱包络等特征。由于语音是短时平稳信号,所以通常用短时傅里叶变化对语音做分析,这样产生的特征能反映语音的短时特性。

梅尔倒谱系数(Mel-frequency Cepstral Coefficients, MFCC)

原理:根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200HZ到5000HZ对语音的清晰度影响最大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的成分,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽临界带宽较高频要小。所以从低频到高频这一频带

  • 0
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
音频处理技术是指对音频信号进行采集、转换、编码、解码、压缩、去噪、增强、分析等一系列处理的技术。在音频信号的处理中,常用的技术包括数字信号处理、滤波、降噪、语音识别、音乐合成等。以下是我对音频处理技术实验的小结: 1. 声音录制与播放实验:通过Python语言中的sounddevice库,可以实现对声音的录制和播放。可以通过调节采样率和声道数等参数,来控制录制音频的质量。 2. 频域分析实验:通过Python语言中的numpy和matplotlib库,可以实现对音频信号进行时域分析和频域分析。在频域分析中,常用的技术包括傅里叶变换和小波变换等。通过对音频信号进行频域分析,可以得到音频信号的频谱图,进而分析音频信号的频率分布和能量分布等信息。 3. 降噪实验:音频信号中常常含有噪声,为了提高信号的质量,需要进行降噪处理。常用的降噪方法包括基于阈值的小波降噪、基于谱减法的降噪、基于混合高斯模型的降噪等。 4. 语音识别实验:语音识别是指将人类语音转换为文本或命令的技术。常用的语音识别技术包括基于HMM的语音识别、基于神经网络的语音识别等。通过对语音信号进行特征提取和语音识别算法的训练和优化,可以实现高效、准确的语音识别。 5. 音乐合成实验:音乐合成是指通过计算机算法生成音乐的过程。常用的音乐合成方法包括基于物理模型的合成、基于采样合成、基于频率合成等。通过对声音的分析和合成,可以实现各种音乐风格和音效的生成。 总的来说,音频处理技术在日常生活和工业生产中有着广泛的应用,包括电话通信、语音助手、音乐制作等领域。通过对音频处理技术的学习和实践,可以提高对音频信号的认识和理解,同时也可以为相关领域的研究和应用提供技术支持。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值