语音信号特征提取<二>时域特征(待续)

语音信号特征提取<二>时域特征(待续)

事实上,因为语音信号的大多数处理都是在组帧之后进行的。组帧之后,帧序号就代表了时间先后。所以没有多少特征可以在时间域进行提取。常见的几个时域特征分别是:幅值、过零率以及直流偏置、能量以及线性预测编码系数。
  • 幅值(Amplitude)
  • 过零率(ZCR)&过均值率率(MCR)
  • 能量(Energy)
  • 线性预测编码系数(LPCC)
    具体计算方法如下:

    1. 幅值(Amplitude)
      每一个声道的语音序列都是以关于0对称的,分布在[-1,1]之间的浮点数。通常会关注一段语音幅值的最大、最小值的绝对值,平均值等等。
    2. 过零率(ZCR)&过均值率(MCR)
      ZCR和MCR与语音信号的高频内容关系比较密切。
      ZCR,就是过零率(zero crossing rate)。它表示在单位时间内(通常是1s)语音幅值的符号变化次数。计算方式如下(伪代码):
for i=1:1:fs-1

    if sign(x(i-1)*x(i))==1 & x(i)!=0
        c=c+1;
    else if x(i)==0 & sign(x(i-1)*x(i+1)==1
        c=c+1;
end
ZCR=c;
其中,x(n)是语音序列,fs是采样率,sign()是符号函数。c是单位时间内的富含变化次数,ZCR单位时间是过零率。
单位时间内的过平均值率(MCR)的计算方法和ZCR类似。只需要对原始序列x做一个处理,

x=xx¯
事实上,语音序列的平均值已经很接近0了。ZCR或者MCR越大,则语音中的高频内容越多。
3. 能量(Energy)
时域的能量计算是以幅值为基础的,给一段语音的幅值求去均方根,就可以简单的作为它的能量了。
energy=1Nx(n)2
而更加严格的能量计算需要进行傅里叶变换,然后对复平面中的幅值求均方根,这里不详述。
3. 线性预测编码系数(LPCC)
待续

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值