语音信号处理(2):短时时域分析——平均幅值、短时过零率、短时自相关函数、短时平均幅度差函数

f8a0175b7a174d66928252759197fc57.png

🔥博客主页:是dream

🚀系列专栏:深度学习环境搭建环境配置问题解决自然语言处理语音信号处理项目开发

💘每日语录:欲望以提升热忱,毅力以磨平高山。

🎉感谢大家点赞👍收藏⭐指正✍️

3ae3b52ac1d044a98683ca2dd1f93346.png

目录

一、短时能量

二、短时平均幅值

三、短时过零率

1、短时过零率定义

2、示例分析

四、短时自相关函数和短时平均幅度差值

1、自相关函数

2、短时自相关函数

3、短时平均幅度差函数

五、代码实现

1、原始代码

2、代码改进,增加选择时间段进行分析的功能


一、短时能量

语音信号的能量随时间的变化比较明显,一般清音部分的能量比浊音的能量小很多,语音信号能量的短时能量分析给出了反应这谢谢幅度变化的一个合适的描述方法。对于信号{x(n)} ,短时能量的定义如下

2c353493e77b40f6a41411487270cc1f.png

En 表示在信号的第n个点开始加窗函数时的短时能量,窗函数可选矩形窗汉明窗等;短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为h(n)。

18c14db3aab144749dd263fdfed1d111.jpeg

简而言之:就是语音信号加了一个窗,这个窗可以是矩形窗,也可以是汉明窗,来反映能量

矩形窗定义:

6ce324e169fe4d28af35be593fc7e5ad.png

汉明窗定义:

1bfc0f57ebe246838319ad162fb8d5a3.png

汉宁窗定义:

616adee246dc4391aadbc20bc8e4b9bd.png

        冲激响应h(n)的选择,或者说窗函数的选择 x(n) x²(n)决定了短时能量表示方法的特点。

        为了反映窗函 图3-4 短时能量的方块图表示数选择对短时能量的影响,假设式短时能量定义式子中的h(n)非常长,且为恒定幅度,那么Eₙ随时间的变化将很小这样的窗就等效为很窄的低通滤波器。

        很明显,我们要求的是对语音信号进行低通滤波,但还不是很窄的低通滤波,至少短时能量应能反映语音信号的幅度变化。因此出现了窗长选取上的矛盾,这种矛盾将在语音信号的短时表示方法的研究中反复出现。即希望有一个短时窗(冲激响应)以响应快速的幅度变化。但是,太窄的窗将得不到平滑的能量函数。并且窗函数的形状和长短直接影响着短时能量的性质。如果用Xw(n)表示x(n)经过加窗处理后的信号,窗函数的长度为 N,短时能量可表示为:

0d32e50500a14e6283e7356c933987f6.jpeg

短时能量的应用:

1、用来区分清音和浊音,因为浊音的能量比清音的能量大很多;

2、对有声段和无声段进行判定,对生母和韵母进行分界,以及连字的分解等;

3、也可做为特征中的一维参数来表示语音信号的大小和超音段信息。

二、短时平均幅值

短时能量由于对信号进行平方运算,因而认为增加了高低信号之间的差距,在一些场合中不适用。可以用短时平均幅值来表示能量的变化。公式如下:

ea57bf6ee1ee4d339fc52603356d9ad6.jpeg

短时平均幅值实现框图如图所示:

eb99380d1ea047ca987f7bcfce8fd323.png

三、短时过零率

        短时平均过零率是语音信号时域分析中的一种特征参数它是指每帧内信号通过零值的次数。

1、对有时间横轴的连续语音信号,可以观察到语音的时域波形通过横轴的情况。

2、在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以计算过零的次数。单位时间内过零的次数就称为过零率。

        一段长时间内的过零率称为平均过零率。如果是正弦信号,其平均过零率就是信号频率的两倍除以采样频率,而采样频率是固定的。因此过零率在一定程度上可以反映信号的频率信息

1、短时过零率定义

935d583e0eab41ccbc8a597945a1077c.png

53ba31d1bb18473082ce0470f14987c7.png

用1/2N 作为幅值,考虑了对该窗口范围内的过零数取平均。 另外:考虑到w(n-m)的非零值范围为n-m≥0,即m≤n,以及 n-m≤N-1,故m≥n-N+1,因此短时平均过零率可以改写为:

e8db51f0e8bc4f3fafa47e580548a497.png

短时过零率实现框图如图所示:

b021d3482a03441aa76c46fefc2cc17a.png

2、示例分析

下图是女声“我到北京去”短时平均过零次数变化曲线。

d729b16a4727466fae9f19e51deb6314.png

可以得到如下结论:

过零率可以区分清音和浊音:

        清音(中高频)的过零率高;

        浊音(中低频)的过零率低。

四、短时自相关函数和短时平均幅度差值

1、自相关函数

①相关函数用与测定两个信号在时域内的相似程度,可以分为互相关函数和自相关函数。

②互相关函数:研究两个信号之间的相关性,如果两个信号完全不同,相互独立,互相相关函数趋近于0.反之,则趋近于峰值。

③自相关函数主要用于研究信号本身的同步性、周期性。

对于离散的数字信号x(n),其自相关函数定义为:

4eca72138af645bbad9fc890eb6da62c.png

对于信号是随机的或是周期的,其自相关函数定义为:

983c79a3e218424eb9859073a4f9b0a4.png

如果信号是具有周期性的,并且周期为P,则有:

bce69cf13ddb4c3494036633fa940938.png

信号的自相关函数性质如下:

1.在k = 0处为最大值,即对于所有k来说,|R(k)|≤R(0)

2.对称性:R(k)= R(-k) 
3.对于确定信号,值R(0)对应于能量,而对于随机信号,R(0)对应于平均功率

2、短时自相关函数

短时自相关函数是在前边的自相关函数基础上将信号加窗获得,其定义如下

c29ca96eba4f40ca916c56d051a25d6b.jpeg

        其中,n表示窗函数是从第n点开始加入。

        并且该函数是偶函数,在k=0是有最大值;

        当k=0时,短时自相关函数值等于加窗语音信号的能量。

令:

880aad6b008848dab49b889a92efb1db.jpeg

则短时自相关函数可以定义为:

b75ba376de8d466b997a3f40731d3b68.jpeg

因此,该式子表明,序列x(n)x(n-k)经过一个hk(n)的滤波器滤波后得到了该自相关函数,

f8d540c1eb054f0f8ba17753e50ee0f4.jpeg

窗长对浊音的短时自相关性有双重影响:

1、由于语音信号的特性是不断变化的,因此期望窗长N尽量短,以捕捉这种变化。

2、为了有效地反映语音信号的周期性,必须选择足够宽的窗口,以确保所选窗口内包含两个或更多基音周期。因此,选择适当的窗长是在捕捉语音信号的瞬时特性和周期性之间进行权衡的过程

修正后的短时自相关函数为:

33e46e07c19a4a8ebb04e76aa74009f8.jpeg

其中,k时最大的延迟点数,因为求和上限是N-1,与k无关,故当k增加时,^Rn(k)值不下降 。

3、短时平均幅度差函数

为了降低计算短时自相关函数的高运算成本,通常使用一种替代方法,即短时平均幅度差函数(AMDF),它在某种程度上模拟了自相关函数的作用。

假设有一个周期为P的周期信号,在k=0,±P, 2P, …时,d(n)=0。

a48f78a5be464f939ed5899a5d746e81.jpeg

即当k与信号周期乡吻合时,d(n)的短时平均幅度值总是很小,因此,短时平均幅度差函数的定义为:

bc8ce1e01df145908bfc81423a5d132b.jpeg

 显然,如果x(n)具有周期P,则当k=0,±P, 2P, …时,rn(k)具有最小值。应该注意的是,取矩形窗是很合适的。

五、代码实现

1、原始代码

这段代码对应了开源代码python_sound_open中的C3_2_y.py。

拿到这个代码的时候,代码是不能运行的,主要时返回参数的问题,这里我加上了fits这个参数,但实际上并没有用这个参数,主要是为了解决报错问题。

from scipy.io import wavfile
import matplotlib.pyplot as plt
from chapter3_分析实验.windows import *
from chapter3_分析实验.timefeature import *
from chapter2_基础.soundBase import *

data, fs ,fits= soundBase('C3_2_y.wav').audioread()

inc = 100
wlen = 200
win = hanning_window(wlen)
N = len(data)
time = [i / fs for i in range(N)]

EN = STEn(data, win, inc)  # 短时能量
Mn = STMn(data, win, inc)  # 短时平均幅度
Zcr = STZcr(data, win, inc)  # 短时过零率

X = enframe(data, win, inc)
X = X.T
Ac = STAc(X)
Ac = Ac.T
Ac = Ac.flatten()

Amdf = STAmdf(X)
Amdf = Amdf.flatten()

fig = plt.figure(figsize=(14, 13))
plt.subplot(3, 1, 1)
plt.plot(time, data)
plt.title('(a)语音波形')
plt.subplot(3, 1, 2)
frameTime = FrameTimeC(len(EN), wlen, inc, fs)
plt.plot(frameTime, Mn)
plt.title('(b)短时幅值')
plt.subplot(3, 1, 3)
plt.plot(frameTime, EN)
plt.title('(c)短时能量')
plt.show()
#plt.savefig('images/energy.png')

fig = plt.figure(figsize=(10, 13))
plt.subplot(2, 1, 1)
plt.plot(time, data)
plt.title('(a)语音波形')
plt.subplot(2, 1, 2)
plt.plot(frameTime, Zcr)
plt.title('(b)短时过零率')
plt.show()
#plt.savefig('images/Zcr.png')

fig = plt.figure(figsize=(10, 13))
plt.subplot(2, 1, 1)
plt.plot(time, data)
plt.title('(a)语音波形')
plt.subplot(2, 1, 2)
plt.plot(Ac)
plt.title('(b)短时自相关')
plt.show()
#plt.savefig('images/corr.png')

fig = plt.figure(figsize=(10, 13))
plt.subplot(2, 1, 1)
plt.plot(time, data)
plt.title('(a)语音波形')
plt.subplot(2, 1, 2)
plt.plot(Amdf)
plt.title('(b)短时幅度差')
plt.show()
#plt.savefig('images/Amdf.png')

运行结果:

①语音波形、短时幅值、短时能量

7d6a8ff561bf4f3c973783a6b60a7eba.png

②短时过零率

3122ffa6141a4b0db1864494c91f2090.png

③短时自相关

8799f3251c78445c838f9ecf23ee1719.png

④短时幅度差

e6e8732875614dc9902c656dbf7ceb56.png

2、代码改进,增加选择时间段进行分析的功能

from scipy.io import wavfile
import matplotlib.pyplot as plt
from chapter3_分析实验.windows import *
from chapter3_分析实验.timefeature import *
from chapter2_基础.soundBase import *

def analyze_audio_segment(audio_data, fs, start_time, end_time, wlen, inc):
    # 根据指定的开始和结束时间截取需要分析的语音段
    start_sample = int(start_time * fs)
    end_sample = int(end_time * fs)
    audio_segment = audio_data[start_sample:end_sample]
    win = hanning_window(wlen)
    N = len(audio_segment)
    time = [i / fs for i in range(N)]

    EN = STEn(audio_segment, win, inc)  # 短时能量
    Mn = STMn(audio_segment, win, inc)  # 短时平均幅度
    Zcr = STZcr(audio_segment, win, inc)  # 短时过零率

    X = enframe(audio_segment, win, inc)
    X = X.T
    Ac = STAc(X)
    Ac = Ac.T
    Ac = Ac.flatten()

    Amdf = STAmdf(X)
    Amdf = Amdf.flatten()

    fig = plt.figure(figsize=(14, 13))
    plt.subplot(3, 1, 1)
    plt.plot(time, audio_segment)
    plt.title('(a)语音波形')
    plt.subplot(3, 1, 2)
    frameTime = FrameTimeC(len(EN), wlen, inc, fs)
    plt.plot(frameTime, Mn)
    plt.title('(b)短时幅值')
    plt.subplot(3, 1, 3)
    plt.plot(frameTime, EN)
    plt.title('(c)短时能量')
    plt.show()

    fig = plt.figure(figsize=(10, 13))
    plt.subplot(2, 1, 1)
    plt.plot(time, audio_segment)
    plt.title('(a)语音波形')
    plt.subplot(2, 1, 2)
    plt.plot(frameTime, Zcr)
    plt.title('(b)短时过零率')
    plt.show()

    fig = plt.figure(figsize=(10, 13))
    plt.subplot(2, 1, 1)
    plt.plot(time, audio_segment)
    plt.title('(a)语音波形')
    plt.subplot(2, 1, 2)
    plt.plot(Ac)
    plt.title('(b)短时自相关')
    plt.show()

    fig = plt.figure(figsize=(10, 13))
    plt.subplot(2, 1, 1)
    plt.plot(time, audio_segment)
    plt.title('(a)语音波形')
    plt.subplot(2, 1, 2)
    plt.plot(Amdf)
    plt.title('(b)短时幅度差')
    plt.show()

if __name__ == "__main__":
    # 读取语音文件
    data, fs, fits = soundBase('C3_2_y.wav').audioread()

    inc = 100
    wlen = 200
    # 指定开始和结束时间(以秒为单位)
    start_time = 1.0
    end_time = 2.0

    # 调用分析函数
    analyze_audio_segment(data, fs, start_time, end_time, wlen, inc)

这里可以根据需求,更改分析时间段的起始和终止时间,来进行进一步分析。

运行结果:

①语音波形、短时幅值、短时能量

25b00aff3b654fa4bbfd89324478382e.png

②短时过零率

2205458519f74d609580b43e35992e57.png

③短时自相关

c2602692a49149ce97a4c237a46bf09a.png

④短时幅度差

cae3574a9f784917b7e2b3a9d0c783e5.png

038ed5dd7b2c415db6adb757f07a63bb.png

写在最后,本文参考了别出BUG求求了_python,深度学习,云原生-CSDN博客,同时参考了"语音信号处理"这本书,最后结合自己的理解,写了本文,目的是为了方便自己复习。

  • 11
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是dream

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值