语音信号处理复习2、语音声学基础

本文详细介绍了语音声学基础,包括声音的产生、频率、振幅和音调等概念。接着,阐述了语音的产生机制,如声带、声门和声道的作用,并探讨了音调、音量和音色的主观属性。此外,还讲解了激励模型和声道模型,包括级联型、并联型和混合型,并涉及辐射模型和预处理技术在语音信号数字化中的应用。最后,提到了语音信号处理的应用,如语音增强、编码、合成、识别等。
摘要由CSDN通过智能技术生成

在这里插入图片描述
语音声学基础
什么是声音 声音是一种空气振动产生的波。
频率(Frequency) 单位时间内,声波的周期数,Hz表示
振幅(Amplitude ) 波振动的大小,一般用dB表示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
语音产生
声带(Vocal Folds) 10~14mm 在喉部的从喉结到杓状软骨之间的韧带褶
声门(Glottis) 两个声带之间形成一个开闭自如的声门
声道(vocal tract) 17cm 由咽腔、口腔和鼻腔三个空气腔体组成
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
音调(Pitch) 声音频率的高低。 表示人的听觉分辨一个声音的调子高低的程度。 声音的三个主要的主观属性之一, 即音量(响度)、音调、音色(音品)
音调主要由声音的频率决定,同时也与声音 强度有关。
音量(响度) 是指人耳对所听到的声音大小强弱的主观感受。
音色(音品) 每个人的声音以及各种乐器所发出的声音 的区别,就是由音色不同造成的。

声压级

在这里插入图片描述
在这里插入图片描述
声强级 某一处的声强级,是指该处的声强与参考声强 的比值常用对数的值再乘以10,度量它的单位 为分贝,符号为dB。参考声强是10-12瓦/米2。
在这里插入图片描述
语音产生在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
激励模型一般分成浊音激励和清音激励来讨论。  浊音激励模型:由于声带不断张开和关闭,将产生 间歇的脉冲波。这个脉冲波的波形类似于斜三角形 的脉冲,它的数学表达式如下:在这里插入图片描述
浊音激励:单个斜三角波的Z变换的全极模型的 形式是:在这里插入图片描述
c是常数。上式表示斜三角波形可描述为一个二极 点模型。 斜三角波形串可视为加权了单位脉冲串激励上述 单个斜三角波模型的结果。

激励模型在这里插入图片描述
激励模型
清音激励模型:模拟成随机白噪声,实际中一般使用均 值为0,方差为1,并在时间(幅值) 上为白色分布的 序列在这里插入图片描述
声道模型——声道部分的模型
目前最常用的有2种建模方法。
是把声道视为由多个等长的不同截面积的管子串 联而成的系统,即“声管模型”。在这里插入图片描述
声道模型—— 声道部分的模型

目前最常用的有2种建模方法。 (2)是把声道视为一个谐振腔,即“共振峰模型”。  共振峰模型,把声道视为一个谐振腔。共振峰就是这 个腔体的谐振频率,表达式:
基于物理声学的共振峰理论,可以建立起三种实 用的共振峰模型:级联型、并联型和混合型。
声道模型 级联型
声道是一组串联的二阶谐振器。从共振峰理论来看, 整个声道具有多个谐振频率和多个反谐振频率,所以 它可被模拟为一个零极点的数学模型;但对于一般元 音则用全极点模型就可以了。它的传输函数可分解 表示为多个二阶极点的网络的串联
在这里插入图片描述
若10个极点,则可以表示为5个二阶极点的网络串联, 即声道可以模拟成下图所示的模型

在这里插入图片描述
声道模型 并联型

对于非一般元音以及大部分辅音,必须考虑采用零极点 模型。此时,模型的传输函数如下:
在这里插入图片描述

在这里插入图片描述
声道模型 混合型

上述两种模型中,级联型比较简单,可以用于描述一般 元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦 音等情况时,级联模型就不能胜任了。
这时腔体具有反谐振特性,必须考虑加入零点,使之成 为零极点模型。对于鼻音、塞音、擦音以及塞擦音等都 可以适用。
正因为如此,将级联模型和并联模型结合起来的混合模 型也许是比较完备的一种共振峰模型。

声道模型 混合型共振峰模型

在这里插入图片描述
辐射模型

在这里插入图片描述
辐射模型
由辐射引起的能量损耗正比于辐射阻抗的实部,所以 辐射模型是一阶类高通滤波器。
在实际信号分析时,常用所谓的“预加重技术”,即 在取样之后,插入一个一阶的高通滤波器在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
语音信号的数字化一般包括放大及增益控制、反混 叠滤波、采样、A/D变换及编码(一般就是PCM码);
在这里插入图片描述
预处理一般包括预加重、加窗和分帧等。 在分析处理之前必须把要分析的语音信号部分从输 入信号中找出来。这项工作叫做语音信号的端点检 测。

预滤波、采样、A/D变换 预滤波的目的有两个:
抑制输入信号各频域分量中频率超出fs/2的所有分量(fs) 为采样频率,以防止混叠干扰。
抑制50Hz的电源工频干扰。
这样,预滤波器必须是一个带通滤波器,设其上、下截止频 率分别是fH和fL: 绝大多数语音编译码器: fH=3400Hz,fL=60-100Hz,fS=8kHz 要求较高的场合fH=4500Hz fL=60Hz 采样率fS=10kHz

语音信号经过预滤波和采样后,由A/D变换器变换为 二进制数字码。
A/D变换中要对信号进行量化,量化不可避免地会产 生误差。量化后的信号值与原信号值之间的差值称 为量化误差,又称为量化噪声。
若信号波形的变化足够大,或量化间隔Δ足够小时, 可以证明量化噪声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概 率密度分布在这里插入图片描述
在这里插入图片描述
预处理

已数字化的语音信号序列将依次存入一个数 据区,在语音信号处理中一般用循环队列的 方式来存储这些数据,以便用一个有限容量 的数据区来应付数量极大的语音数据,已处 理完提取出了语音特征参数的一个时间段的 语音数据可以依次抛弃,让出存储空间来存 储新数据。
调频收发技术中,通常采用预加重(发送端 对输入信号高频分量的提升)和去加重(解 调后对高频分量的压低)技术解决高频传输 困难的问题。

人的听觉系统是一个十分巧妙的音频信号处理器。主要完成 声音的采集、频率分解、声能转换、声音加工和分析以及感 觉声音的音色、音调、音强、判断方位等功能。
听觉具有选择性:能被人耳听到的声音取决于声音的强度和 频率范围。(一般人可以感觉到20Hz~20kHz,强度为- 5dB~130dB的声音信号)
听觉具有掩蔽效应:指在一个强信号附近,弱信号将变得不 可闻,被掩蔽掉了。在这里插入图片描述
语音信号处理应用
语音增强 语音编码 语音合成与转换 语音隐藏 语音识别 声源定位 情感识别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

位沁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值