语音相关笔记
文章平均质量分 72
用于记录自己做语音识别、语音情感识别的一些笔记
运帝
业精于勤,荒于嬉;行成于思,毁于随!
展开
-
用python实现语音的分割并保存为.wav文件
用python实现语音的分割并保存为.wav文件原创 2022-09-25 18:13:06 · 4231 阅读 · 0 评论 -
在Python上用openSMILE提取IS09和eGeMAPS特征集
在Python上用openSMILE提取IS09和eGeMAPS特征集原创 2022-09-22 13:19:51 · 2423 阅读 · 9 评论 -
语音预处理之分帧加窗
语音信号为非平稳信号,其统计属性是随着时间变化的,语音又具有但是平稳的属性,在一个发音单元里,语音信号表现出明显的稳定性、规律性,在进行语音识别时,对于一句话识别的过程也是以较小的发音单元(音素、字、字节)为单位进行识别的,因此需要分帧加窗来提取短时片段。原创 2022-01-18 00:47:31 · 9532 阅读 · 5 评论 -
语音预处理之预加重
语音经发声者的口唇辐射发出,空气作为语音信号传播的介质,在传播声音信号能量的同时也消耗能量,语音信号的频率越高,介质对声音能量的损耗越严重,预加重能在一定程度上弥补高频部分的损耗,保护声道的信息。原创 2021-12-23 10:21:06 · 10456 阅读 · 5 评论 -
语音识别基础知识二
1、声波的特性声波在空气中是一种纵波,它的振动方向和传播方向是一致的。声音在空气中的震动形成压力波,产生压强,经过传感器接受转化,变成时变的电压信号。声波的特性主要包括频率和声强。某一瞬间介质中的压强相对于无声波时压强的改变量称为声压,记为p(t),单位时Pa。声压级(sound pressure level, SPL),一般把很小的声压p0=2X10^(-5)Pa作为参考声压,把所要测量的声压p与参考声压的比值取对数后,乘以20得到的数值称为声压级。国家标准规定住宅区白天的噪音不能超过原创 2021-12-22 16:09:25 · 2899 阅读 · 0 评论 -
语音识别基础知识一
1、人耳组成的三部分:外耳:外耳包含耳翼和外耳道,耳翼具有定向作用,外耳道同其它管道一样也有共振频率,大约是3400Hz。鼓膜位于外耳道内端,声音的振动通过鼓膜传到内耳。中耳:由三块听小骨组成,作用包括放大声压和保护内耳。中耳通过咽鼓管与鼻腔相通,其作用是调节中耳压力。内耳:耳蜗实现声震动到神经冲动的转换,并传递到大脑。2、听觉特性与音频信号2.1人的听觉特性①人对声音强弱的感觉通过对人群测试发现,当声音信号的强弱按指数规律增长时,人会大体上感到声音在均匀地增强,即将声音声强取对原创 2021-12-20 23:46:48 · 3786 阅读 · 0 评论 -
语音信号的短时平均过零率
一、短时平均过零率的作用1、对于连续语音信号,可以考查其时域波形通过时间轴的情况;2、对于离散信号,实质上就是信号采样点符号变化的次数;3、在一定程度上可以反映出频率的信息,比如正弦信号的平均过零率就是信号的频率除以两倍采样频率,而采样频率是固定的,所以根据短时平均过零率得出正弦信号的频率。二、短时平均过零率的定义1、过零率 单位时间内信号通过零值的次数就称为过零率。2、短时平均过零率 短时平均过零率是语音信号时域分析中最简单的一种特征,一段短时间内的过零率称为短时平均过零率,这里的短时原创 2021-05-23 10:18:27 · 6161 阅读 · 1 评论 -
语音信号的短时能量
一、短时能量的作用1、短时能量可以区分清音和浊音,因为浊音的能量要比清音的大得多;清音:释义是轻柔的声音;发音时声带不振动的音,如p、t、k (pa, te , ke)浊音:将发音时声带振动的音称为浊音,如b、d、g (ba, de, ge)2、对声音段和无声段进行判定;3、对声母和韵母分界;4、连字的分界等。二、怎么计算短时能量1、短时能量的定义对于信号{x(n)},其短时能量的定义如下:En 表示在信号的第n个点开始加窗函数时的短时能量,窗函数可选矩形窗和汉明窗等;短时能量可以看作原创 2021-05-18 15:10:57 · 10379 阅读 · 6 评论