语音信号处理复习2、语音声学基础

最新推荐文章于 2023-12-14 20:17:44 发布

位沁

最新推荐文章于 2023-12-14 20:17:44 发布

阅读量1.3k

点赞数 2

分类专栏：语音信号处理

本文链接：https://blog.csdn.net/qq_43543515/article/details/119506811

版权

语音信号处理专栏收录该内容

13 篇文章 12 订阅

订阅专栏

本文详细介绍了语音声学基础，包括声音的产生、频率、振幅和音调等概念。接着，阐述了语音的产生机制，如声带、声门和声道的作用，并探讨了音调、音量和音色的主观属性。此外，还讲解了激励模型和声道模型，包括级联型、并联型和混合型，并涉及辐射模型和预处理技术在语音信号数字化中的应用。最后，提到了语音信号处理的应用，如语音增强、编码、合成、识别等。

摘要由CSDN通过智能技术生成

在这里插入图片描述
语音声学基础
什么是声音声音是一种空气振动产生的波。
频率（Frequency）单位时间内，声波的周期数，Hz表示
振幅（Amplitude ）波振动的大小，一般用dB表示

在这里插入图片描述

语音产生
声带（Vocal Folds） 10~14mm 在喉部的从喉结到杓状软骨之间的韧带褶
声门（Glottis）两个声带之间形成一个开闭自如的声门
声道（vocal tract） 17cm 由咽腔、口腔和鼻腔三个空气腔体组成

在这里插入图片描述

音调（Pitch）声音频率的高低。表示人的听觉分辨一个声音的调子高低的程度。声音的三个主要的主观属性之一，即音量（响度）、音调、音色（音品）
音调主要由声音的频率决定，同时也与声音强度有关。
音量（响度）是指人耳对所听到的声音大小强弱的主观感受。
音色（音品）每个人的声音以及各种乐器所发出的声音的区别，就是由音色不同造成的。

声压级

在这里插入图片描述

声强级 某一处的声强级，是指该处的声强与参考声强的比值常用对数的值再乘以10，度量它的单位为分贝，符号为dB。参考声强是10-12瓦/米2。

语音产生

激励模型一般分成浊音激励和清音激励来讨论。  浊音激励模型：由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲，它的数学表达式如下：在这里插入图片描述
浊音激励：单个斜三角波的Z变换的全极模型的形式是：
c是常数。上式表示斜三角波形可描述为一个二极点模型。斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。

激励模型在这里插入图片描述
激励模型
清音激励模型：模拟成随机白噪声，实际中一般使用均值为0，方差为1，并在时间（幅值）上为白色分布的序列
声道模型——声道部分的模型
目前最常用的有2种建模方法。
是把声道视为由多个等长的不同截面积的管子串联而成的系统，即“声管模型”。在这里插入图片描述
声道模型—— 声道部分的模型

目前最常用的有2种建模方法。（2）是把声道视为一个谐振腔，即“共振峰模型”。  共振峰模型，把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率，表达式：
基于物理声学的共振峰理论，可以建立起三种实用的共振峰模型：级联型、并联型和混合型。
声道模型级联型
声道是一组串联的二阶谐振器。从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联：
在这里插入图片描述
若10个极点，则可以表示为5个二阶极点的网络串联，即声道可以模拟成下图所示的模型

在这里插入图片描述
声道模型并联型

对于非一般元音以及大部分辅音，必须考虑采用零极点模型。此时，模型的传输函数如下：
在这里插入图片描述

在这里插入图片描述
声道模型混合型

上述两种模型中，级联型比较简单，可以用于描述一般元音。当鼻化元音或鼻腔参与共振，以及阻塞音或摩擦音等情况时，级联模型就不能胜任了。
这时腔体具有反谐振特性，必须考虑加入零点，使之成为零极点模型。对于鼻音、塞音、擦音以及塞擦音等都可以适用。
正因为如此，将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。

声道模型混合型共振峰模型

在这里插入图片描述
辐射模型

在这里插入图片描述
辐射模型
由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类高通滤波器。
在实际信号分析时，常用所谓的“预加重技术”，即在取样之后，插入一个一阶的高通滤波器

语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；
在这里插入图片描述
预处理一般包括预加重、加窗和分帧等。 在分析处理之前必须把要分析的语音信号部分从输入信号中找出来。这项工作叫做语音信号的端点检测。

预滤波、采样、A/D变换预滤波的目的有两个：
抑制输入信号各频域分量中频率超出fs/2的所有分量（fs）为采样频率，以防止混叠干扰。
抑制50Hz的电源工频干扰。
这样，预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：绝大多数语音编译码器： fH=3400Hz，fL=60-100Hz，fS=8kHz 要求较高的场合fH=4500Hz fL=60Hz 采样率fS=10kHz

语音信号经过预滤波和采样后，由A/D变换器变换为二进制数字码。
A/D变换中要对信号进行量化，量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。
若信号波形的变化足够大，或量化间隔Δ足够小时，可以证明量化噪声符合具有下列特征的统计模型： ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布，即具有等概率密度分布在这里插入图片描述

预处理

已数字化的语音信号序列将依次存入一个数据区，在语音信号处理中一般用循环队列的方式来存储这些数据，以便用一个有限容量的数据区来应付数量极大的语音数据，已处理完提取出了语音特征参数的一个时间段的语音数据可以依次抛弃，让出存储空间来存储新数据。
调频收发技术中，通常采用预加重（发送端对输入信号高频分量的提升）和去加重（解调后对高频分量的压低）技术解决高频传输困难的问题。

人的听觉系统是一个十分巧妙的音频信号处理器。主要完成声音的采集、频率分解、声能转换、声音加工和分析以及感觉声音的音色、音调、音强、判断方位等功能。
听觉具有选择性：能被人耳听到的声音取决于声音的强度和频率范围。（一般人可以感觉到20Hz~20kHz，强度为- 5dB~130dB的声音信号）
听觉具有掩蔽效应：指在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。在这里插入图片描述
语音信号处理应用
语音增强 语音编码 语音合成与转换 语音隐藏 语音识别 声源定位 情感识别