语音信号基础_语音信号基础知识-CSDN博客

本文链接：https://blog.csdn.net/qq_48482117/article/details/136777921

本文介绍了语音信号的基础，包括物理声学中的声音产生、传播、声压、音高等概念，以及数字信号处理中的离散化、量化、时域和频域分析、滤波器设计。此外，文章重点讨论了语音识别中常用的特征提取方法，如MFCC、LPCC、PLP和SBC，展示了这些技术在实际应用中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

语音信号基础

语音信号基础

1.物理声学

物理声学是研究声波产生、传播和接收的物理学科，它是理论物理的一部分，并具有广泛的应用。

**声音的产生：**声音实际上是由于物体振动产生的压力波在物质介质（比如空气）中的传播。例如，当人们说话时，声带的振动会使周围的空气振动，形成以气流为媒介的声波。
**声音的传播：**声音以波的形式在物质（固体、液体、气体）中传播。声波的传播速度取决于介质的性质。例如，在空气中，声音的速度大约为343米/秒；在水中，声速约为1500米/秒；在钢铁中，声速约为5000米/秒。
**声压和声强：**声音传播的一个重要特性是声压，即空气压力的快速波动。声强是描述声压能量流过的表面积的度量。例如，当音响发出声音，越靠近音响，我们感觉到的声音越大，这是因为声强随距离的增加而减小。
**频率和音高：**一般来说，物体振动的次数即频率，决定了声音的音高。频率越高，我们感觉到的音高越高。一个典型的例子是，当我们用敲棒敲击不同大小的音符，会发出不同音高的声音，这其实是因为音符振动的频率不同。
**共振：**当一个系统的自然振动频率与外部力的频率相同时，就会发生共振现象，使系统的振幅显著增大。例如，当我们吹口哨时，空气柱在口哨中的振动与我们吹气的频率相吻合，从而引起共振，产生声音。

以上是一些基础的物理声学知识，对于理解声音的产生和传播具有重要意义。在语音信号处理、音响设计、建筑声学等领域，都会用到这些原理。

2.数字信号处理

数字信号处理（Digital Signal Processing，简称DSP）是处理现实中的物理信号，例如声音、光照、温度等，得到我们需要的信息或者进行适当控制的一门技术。以下是该领域的一些主要知识点：

离散化和量化：
离散化就是把连续的信号也就是我们的时间轴或者空间轴离散化，而量化就是把连续的幅度进行离散化。例如，在进行音频处理时，我们首先进行采样，把连续的声音信号转变为离散的信号样本；再进行量化，将每一采样点的无限可能的取值限制为有限的几个取值，最常见的形式是二进制数字。
时域和频域分析：
时域分析就是直接处理和分析信号随时间变化得出的波形，通过观察其波形，我们可以得到一些有用的信息，如波形的周期、位相和振幅等。频域分析则涉及频率和相位的信息，并用于描述信号的频谱特性。比如，我们常用傅立叶变换将信号从时域转化为频域，这样可以更容易观察到信号中不同频率的成分。
滤波器设计：
数字信号的滤波本质上是通过卷积运算实现的。无论是时间域还是频域，滤波器的目的都是为了去掉不想要的信号成份或者增强想要的信号成分。例如在音频处理中，我们可能会设计一个低通滤波器来过滤掉音频中的高频噪声。
系统辨识（System Identification）：
系统辨识是通过采集系统的输入/输出数据，建立起描述系统动态行为的数学模型。一般可分为线性系统辨识和非线性系统辨识。
**MRI和CT图像恢复：**这是数字信号处理应用在医学上的典例，利用反卷积，傅立叶变换等技术去掉图像噪声，重建更高清晰度的图像。

以上就是数字信号处理的一些基础知识和应用实例。值得注意的是，数字信号处理是一个相当庞大和复杂的领域，涉及的技术和方法远超上述所列。

3.特征提取

在语音识别中，特征提取是一个重要的步骤。它的目标是将原始的语音信号转换成一种更高级的表示方式，这个表示方式能够捕捉到声音的某些特性，对声音分类或声音的其他应用具有重要意义。以下是在语音识别中常用的一些特征提取方法：

**梅尔频率倒谱系数（MFCC）：**MFCC是在语音识别中使用最广泛的特征。它起始于人的听觉系统的模拟，基于人的听觉感知更多集中在低频区，因此MFCC将功率谱映射到人耳的梅尔刻度上，然后通过离散余弦变换（DCT）降低特征之间的相关性。最终，得到的MFCC特征可以有效地表示语音信号的特性。
**线性预测倒谱系数（LPCC）：**LPCC基于线性预测分析，试图通过一个线性模型来预测下一个样本。然后利用预测的误差作为声源，线性预测模型的系数来描述声道，从而获取整个声音生成系统的信息。LPCC会对这些线性预测模型的参数进行倒谱分析以得到特征。
**感知线性预测（PLP）：**PLP同样考虑的是人的听觉感知特性，其频域转换（Bark刻度）以及最终的倒谱分析与MFCC类似，但是其在平滑谱上采用线性预测模型，而不是基于傅立叶变换的功率谱。这使得PLP特征在一定程度上可以获得更好的性能。
**谱子带零（SBC）：**SBC是一种非常有效的语音特征，它在子带滤波器后使用零交叉检测技术从语音信号中提取信息。由于SBC在一些噪声环境下性能出色，因此在噪音环境下的语音识别系统，如远场语音识别中，应用较为广泛。

以上所述只是一部分在语音识别中的特征提取技术，有很多其他的方法和技术都在被使用和研究中。请注意选择合适的特征提取方法取决于你的具体应用和需求。