语音信号的短时能量

一、语音信号短时能量的作用

1、短时能量可以区分清音和浊音,因为浊音的能量要比清音的大得多;
清音:释义是轻柔的声音;发音时声带不振动的音,如p、t、k (pa, te , ke)
浊音:将发音时声带振动的音称为浊音,如b、d、g (ba, de, ge)
2、对声音段和无声段进行判定;
3、对声母和韵母分界;
4、连字的分界等。

二、怎么计算语音信号的短时能量

1、短时能量的定义

对于信号{x(n)},其短时能量的定义如下:
在这里插入图片描述
  En 表示在信号的第n个点开始加窗函数时的短时能量,窗函数可选矩形窗和汉明窗等;短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为h(n)。
矩形窗的公式:
在这里插入图片描述
汉明窗的公式:
在这里插入图片描述

2、语音信号短时能量的计算

两个问题:
(1)一帧能量
  因为语音信号是随时间变化的,所以其能量也是随时间变化的,所以在计算数字化的语音信号的能量时,并不是计算整体的能量,而是按帧来计算每一帧的能量,参考网上文章一般是已256个采样点为一帧。
  我计算了一下,256个采样点的时长大约是5-6ms,远比分帧加窗时的分帧时间还短(20~30ms)。但是,这里计算的是能量,帧与帧之间不会重叠,比如第一个256个采样点为第一帧,则接下来的256个采样点为第二帧,……最后剩下的可能小于256个采样点为最后一帧。分割得越小,计算的能量越准确。每一帧的能量是将每个采样点带入上述能量计算并求和得出。
(2)时间的计算
  这里的时间涉及到化能量的波形图,因为256个采样点的能量和为一个能量值,所以计算时间的方式需要改变,具体修改方式如下:

time = np.arange(0, nframes) * (1.0 / framerate)  #之前的时间 
time1 = np.arange(0, nframes/256) * (1.0 / framerate)*256  # 修改后的时间

  因为能量点数缩小了256倍,所以时间的长度也要随之缩小,可以用总的采样点数除以256得到对应的时间点,但是能量的时间也应该与原波形图的时间对应,所以要在后面乘上一个256才行,否则在同一个点上的时间是之前时间的1/256。

三、代码实现

  我用中文数字0-9的语音来举例,大家可以自己录制一个wav语音文件进行尝试。

import wave
import numpy as np
from matplotlib 
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值