语音信号特征提取<二>时域特征(待续)

最新推荐文章于 2024-03-01 16:02:36 发布

yxma

最新推荐文章于 2024-03-01 16:02:36 发布

阅读量9.4k

点赞数 3

分类专栏：信号处理语音识别

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/u011108244/article/details/70162261

版权

信号处理同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

语音识别

5 篇文章 1 订阅

订阅专栏

语音信号特征提取<二>时域特征(待续)

事实上，因为语音信号的大多数处理都是在组帧之后进行的。组帧之后，帧序号就代表了时间先后。所以没有多少特征可以在时间域进行提取。常见的几个时域特征分别是：幅值、过零率以及直流偏置、能量以及线性预测编码系数。

幅值(Amplitude)
过零率(ZCR)&过均值率率(MCR)
能量(Energy)
线性预测编码系数(LPCC)
具体计算方法如下：
1. 幅值(Amplitude)
  每一个声道的语音序列都是以关于0对称的，分布在[-1,1]之间的浮点数。通常会关注一段语音幅值的最大、最小值的绝对值，平均值等等。
2. 过零率(ZCR)&过均值率(MCR)
  ZCR和MCR与语音信号的高频内容关系比较密切。
  ZCR，就是过零率(zero crossing rate)。它表示在单位时间内(通常是1s)语音幅值的符号变化次数。计算方式如下（伪代码）：

for i=1:1:fs-1

    if sign(x(i-1)*x(i))==1 & x(i)!=0
        c=c+1;
    else if x(i)==0 & sign(x(i-1)*x(i+1)==1
        c=c+1;
end
ZCR=c;

其中，x(n)是语音序列，fs是采样率，sign()是符号函数。c是单位时间内的富含变化次数，ZCR单位时间是过零率。
单位时间内的过平均值率(MCR)的计算方法和ZCR类似。只需要对原始序列x做一个处理，

$x=x-\bar{x}$ 。
事实上，语音序列的平均值已经很接近0了。ZCR或者MCR越大，则语音中的高频内容越多。
3. 能量(Energy)
时域的能量计算是以幅值为基础的，给一段语音的幅值求去均方根，就可以简单的作为它的能量了。
$energy=\frac{1}{N}\cdot \sum x(n)^{2}$
而更加严格的能量计算需要进行傅里叶变换，然后对复平面中的幅值求均方根，这里不详述。
3. 线性预测编码系数(LPCC)
待续

yxma

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
语音信号特征提取<二>时域特征(待续)

语音信号特征提取<二>时域特征(待续)事实上，因为语音信号的大多数处理都是在组帧之后进行的。组帧之后，帧序号就代表了时间先后。所以没有多少特征可以在时间域进行提取。常见的几个时域特征分别是：幅值、过零率以及直流偏置、能量以及线性预测编码系数。幅值(Amplitude)过零率(ZCR)&过均值率率(MCR)能量(Energy)线性预测编码系数(LPCC) 具体计算方法如下：幅值(Amplitu
复制链接

扫一扫