语音信号特征提取<一>预处理

语音信号是一种常见的时间序列,它以离散信号的形式被编码,然后使用一定的文件格式来存储,例如”.wav”。在当前与语音有关的应用中,出了单纯的录制、不做任何处理之后播放之外,几乎所有的应用都要涉及到语音特征的提取,例如语音文本转换、说话人识别、语音情感识别等等。此外,在进行音乐信息检索(MIR)的时候,也需要类似的处理。
语音特征提取就是从数字信号中提取出与我们所要得到的主要信息相关的内容,一般会从视域和频域两个不同的角度去进行。这些特征可以从不同的角度去分类。

通常,在进行特征提取之前,都要对原始序列做一系列的预处理。哪些预处理是必需的呢?常用的有以下几个:
  1. 声道转换(channel conversion)
  2. 预加重(pre-emphasis)
  3. 重采样(resample)
  4. 组帧(framing)
  5. 加窗(windowing)
    ……
    可以完全按照上述的先后顺序进行这五种预处理方法。下面是详细内容:

1.声道转换

如果所要提取的语音特征不区分声道,则必须将多声道的语音转换成单声道。假设一个多声道语音序列为x(n)有c个声道,c=1,..,C.则每个声道对应的序列分别为:

,要把它转换成单声道语音,只需要求得其算数平均值就行了。

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值