语音信号的短时能量

最新推荐文章于 2025-03-07 16:42:23 发布

王小运e

最新推荐文章于 2025-03-07 16:42:23 发布

阅读量1.1w

点赞数 8

分类专栏：语音相关笔记文章标签： python 语音识别

本文链接：https://blog.csdn.net/weixin_42103947/article/details/116989509

版权

一、语音信号短时能量的作用

1、短时能量可以区分清音和浊音，因为浊音的能量要比清音的大得多；
清音：释义是轻柔的声音；发音时声带不振动的音，如p、t、k （pa, te , ke)
浊音：将发音时声带振动的音称为浊音，如b、d、g (ba, de, ge)
2、对声音段和无声段进行判定；
3、对声母和韵母分界；
4、连字的分界等。

二、怎么计算语音信号的短时能量

1、短时能量的定义

对于信号{x(n)},其短时能量的定义如下：
在这里插入图片描述
En 表示在信号的第n个点开始加窗函数时的短时能量，窗函数可选矩形窗和汉明窗等；短时能量可以看作语音信号的平方经过一个线性滤波器的输出，该线性滤波器的单位冲激响应为h(n)。
矩形窗的公式：
在这里插入图片描述
汉明窗的公式：

2、语音信号短时能量的计算

两个问题：
（1）一帧能量
因为语音信号是随时间变化的，所以其能量也是随时间变化的，所以在计算数字化的语音信号的能量时，并不是计算整体的能量，而是按帧来计算每一帧的能量，参考网上文章一般是已256个采样点为一帧。
我计算了一下，256个采样点的时长大约是5-6ms，远比分帧加窗时的分帧时间还短(20~30ms)。但是，这里计算的是能量，帧与帧之间不会重叠，比如第一个256个采样点为第一帧，则接下来的256个采样点为第二帧，……最后剩下的可能小于256个采样点为最后一帧。分割得越小，计算的能量越准确。每一帧的能量是将每个采样点带入上述能量计算并求和得出。
（2）时间的计算
这里的时间涉及到化能量的波形图，因为256个采样点的能量和为一个能量值，所以计算时间的方式需要改变，具体修改方式如下：

time = np.arange(0, nframes) * (1.0 / framerate)  #之前的时间 
time1 = np.arange(0, nframes/256) * (1.0 / framerate)*256  # 修改后的时间

因为能量点数缩小了256倍，所以时间的长度也要随之缩小，可以用总的采样点数除以256得到对应的时间点，但是能量的时间也应该与原波形图的时间对应，所以要在后面乘上一个256才行，否则在同一个点上的时间是之前时间的1/256。

三、代码实现

我用中文数字0-9的语音来举例，大家可以自己录制一个wav语音文件进行尝试。

import wave
import numpy as np
from matplotlib

最低0.47元/天解锁文章