声音的三要素与处理过程详解-CSDN博客

本文链接：https://blog.csdn.net/qq_29815685/article/details/129990217

一、声音的三要素“音调”、“响度”和“颜色”

我们描述一个人的时候，可以使用性别、外貌、身高、体重等特征，而描述声音时往往会使用一些形容词，比如刺耳、低沉、响亮、微弱；或者说明具体的声音种类，比如风声、雨声、人声等。但这些描述似乎都只能“耳听”不能“言传”，更无法进行量化。我们需要更明确的属性，对这些形容词、名词做进一步定义。这就涉及到声音的三个基础且重要的特征：音调、响度和音色，也称为声音的三要素。

1、音调

“刺耳、低沉”，这其实是我们对声音高低的感觉描述，这一特征我们称之为音调。在物理定义上，声音是物体振动（比如我们的声带）产生的波，而音调由发声体振动的频率决定，频率越高（振动越快）则音调越高，听起来就越“刺耳”，反之音调越低、听起来就越低沉。我们声带的振动频率，约在100Hz~10KHz之间，基本对应于常说的男低音至女高音的频率。而我们耳朵的听力范围仅限于频率20Hz ~ 20KHz，低于或者高于这个频率范围的声音，分别被称为次声波（＜20Hz）和超声波（＞20KHz），无法被人耳感知。不难发现，虽然人耳的感知范围有限，但人类的发声频率完全包含于人耳的感知范围之内，这意味着任何人说的话，总能被耳朵捕捉到，每个人都有发声的权力，也总有一双耳朵能倾听到你的声音。
在这里插入图片描述
2、响度

“响亮、微弱”，是我们对声音强弱的感觉描述，这种特征我们称之为响度。响度由发声体振动的幅度决定，当传播的距离相同时，振动幅度越大、则响度越大；相反，当振幅一定时，传播距离越远，响度越小，就是我们常说的“距离太远了，听不见”的原因。

3、音色

“钢琴声、小提琴声”等各种声音，是我们对各种音调、各种响度声音的综合感受，这种特征我们称之为“音色”。音色是一种“感官属性”，我们利用这种“感官属性”，能区分发声的物体，发声的状态，还能评价听感上的优劣，比如“钢琴声、二胡声”，比如“只闻其声，如见其人”，比如“悦耳、动听”等等。那么音色是怎么“产生”的，又由什么“决定”呢？前面我们了解到，声音是由物体振动产生的波，而物体整体振动发出的只是基音，其各部分还有复合的振动，这些复合的振动也会发出声音并形成泛音，基音+泛音的不同组合就产生了多样化的音色，声音世界才变得丰富多彩起来。我们一般认为音色由发声体的材质决定。

	音调	响度	音色
概念	人耳对声音高低的感觉	人耳对声音强弱的感觉	人耳对声音综合特征的判断
决定因素	声波振动的频率	声波振动的幅度	由发声体的材质决定
形容	低沉、刺耳、尖锐	震耳欲聋	钢琴声、小提琴声

二、声音的处理过程

我们现在知道，声音可以从三要素的维度来进行描述、区分，但仅仅是描述还远远不够，我们需往实际应用层面继续前进，要对声音进行应用开发，而应用开发的前提是要将其进行采集和存储。在空气或固液体等介质中以波形式传播的声音，如何才能被捕获，并转换为可在电子设备、网络链路中传输的数据呢？

1、声音的采集

最常见的音频采集方式是使用麦克风、话筒等拾音设备进行录制。我们每天使用的手机上就有多个麦克风设备，比如用于日常电话语音的底部麦克风、视频通话的顶部麦克风、便捷录音的背部麦克风等等。这些拾音设备里有一层薄且敏感的振动膜（类似于人耳内的鼓膜），在不同振幅、频率声波的影响下，振动膜会同步振动，并配合其他关联模块将振动转换为变化的电流。如此，便把将声波的振动模式记录为了连续的电学模拟信号，也即记录声音的关键要素特征，“捕获”了声音。

在不同的平台系统上，会使用对应的系统 API（比如 Windows 上的 CoreAudio、Android上的AudioRecord/OpenSLES、iOS 上的 AudioUnit 等）和其默认的音频采集设备。

2、声音的数字化

前面我们了解到，声音可以被麦克风等设备采集、转换为电学模拟信号。模拟信号，意味着它在时间维度和幅度维度上，都是连续的，可以被无限分割为任意小的点，无法穷举。听起来似乎比较复杂且难以处理？是的，其实不仅我们觉得如此，计算机也有“同感”。虽然计算机常常和“智能”挂钩，但它其实非常“单纯”，只能识别处理“0”、“1”形式的数字信号（区别于模拟信号，数字信号是离散的、有限个、可穷举的）。

所以，为了“照顾”单纯的计算机，我们还需要将设备采集到的模拟信号“翻译”为数字离散态。也即，将音频模拟信号转换为音频数字信号，这个过程称为音频模拟信号的数字化（也叫模数转化，A/D转换），整个过程主要包括采样、量化、编码等步骤。下面，我们来具体了解一下。

如下图，红色波形是一段时间上（假设为1s）的模拟信号波。我们仍取水平横轴为时间维度、纵轴为幅度维度，一步步将其转换为数字信号。

第一步，采样：以一定采样率，在时间轴上对模拟信号进行数字化。

首先，我们沿着时间轴，按照固定的时间间隔 T（假设 T=0.1s），依次取多个点（如图中 1~10 所对应波上的点）。此时 T 称为取样周期，T 的倒数为本次取样的采样率（f=1/T=10Hz），f 即表示每秒钟进行采样的次数，单位为赫兹（Hz）。显然，采样率越高、单位时间的采样点越多，就能越好的表示原波形（如果高频率、密集地采集无数个点，就相当于完整地记录了原波形）。

第二步，量化：以一定精度，在幅度轴上对模拟信号进行数字化。

完成采样后，我们接下来进行音频数字化的第二步，量化。采样是在时间轴上对音频信号进行数字化，得到多个采样点；而量化，则是在幅度方向上进行数字化，得到每个采样点的幅度值。

如下图，我们设定纵轴的坐标取值范围为 0 ~8，得到每个采样点的纵坐标（向上取整），这里的坐标值即为量化后的幅度值。因为我们将幅度轴分为了 8 段，有 8 个值用于量化取整，即本次量化的精度为 8。显然，如果分段越多，则幅度的量化取值将越准确（取整带来的误差就越小），也能越好的表示原波形。对于幅度的量化精度，有一个专有术语描述 — 位深。

第三步，编码：按特定格式，记录采样/量化后的数据。

经过量化后，我们得到了每个采样点的幅度值。接下来，就是音频信号数字化的最后一步，编码。编码是将每个采样点的幅度量化值，转化为计算机可理解的二进制字节序列。

如下图，参照编码部分的表格，样本序号为样本采样顺序，样本值（十进制）为量化的幅度值。而样本值（二进制）即为幅度值转换后的编码数据。最终，我们就得到了“0”、“1”形式的二进制字节序列，也即离散的数字信号。这里得到的，是未经压缩的音频采样数据裸流，也叫做PCM 音频数据(Pulse Code Modulation，脉冲编码调制)。实际应用中，往往还会使用其他编码算法做进一步压缩

至此，我们基本走完了音频模拟信号数字化的全流程。它包括了 采样、量化、编码三个主要步骤，通过在时间轴和幅度轴上的数字化，最终得到了音频信号的二进制形式编码。终于，单纯的计算机将可以理解、处理音频信号了，这迈出了音频数字化应用的重要一步。

就像声音有三要素一样，音频数字信号也有几个需要我们关注的基础属性，分别是采样率、采样位深和声道数。这些属性是影响音频数字信号质量的关键指标（我们常说的音质），也称为音频数字信号的质量三要素。

三、声音的存储

采样频率
音频采样频率，指的是单位时间内（1s）对声音信号的采样次数（参考数字化过程-采样）。常说的 44.1KHz 采样率，也即 1 秒采集了 44100 个样本。理论上来说，最低采样率需要满足奈奎斯特采样定理，在该前提下，采样率越高则保留的原始音频信息越多，声音自然就越真实。但需要注意的是，采样率越高则采样得到的数据量越大，对存储和带宽的要求也就越高。

声音的存储容量=采样频率(Hz)×量化位数(bit)×声道数(单声道：1；双声道：2）×时间(s) /8 B