虽然我们并不是数字音频工程师,但是增加一些关于位深度和采样率的背景知识对涉及到数字音乐的每一个人来说都是有好处的。无论你知不知道,这些都是你每天会接触的东西。无论是突破个人对数字音频理解的障碍还是作为社交谈话中资料,这些都是很棒的背景知识。
概览
那么首先我们要了解的就是位深度和采样率只存在于数字音频中。在数字音频中,位深度描述的是振幅(纵轴),采样率描述的是频率(横轴)。所以,增加我们使用的位数就是提高声音振幅的解析度,而增加每秒的采样数则是在增加对声音频率的解析度。
在模拟系统中(自然世界),音频是连续和平滑的。在数字系统中,平滑的模拟波形只能被近似地采样,而且限制在一定的振幅范围里。当采样一个声音时,音频被切分成了很小的片段(采样),这些采样会固定在一个振幅电平上。将信号修正到某个振幅电平上的处理叫做量化,创建采样片段的处理叫做采样。
在下面的图表里,形象地展示了一个长达1s的自然正弦波,从0s开始到1s结束的情况。蓝色的条代表了正弦波数字量化的近似值,每一条就是一个采样,被修正到可用的近似振幅电平上。(当然图表比现实情况要更加粗略。)
根据录音时选择,时长1s的音频可能有44.1K,48K个采样,在24位的情况下包含了-144dB到0dB的振幅电平(16位为-96dB到0dB)。动态范围的分辨率(采样可以使用的振幅电平单位数量,即图示的矩形数量)在16位下为65536个,24位下为16777216个。
所以增加位深度能极大地提升振幅解析度和动态范围。那么,动态范围的增加会在哪里得以体现呢?因为振幅不能超过0dB,所以增加的dB会被分配到振幅较小的采样上。因此人们能听到更多微小的声音(比如延展到-130dB的混响轨迹),而这些声音在16位,-96dB的情况下会被削减掉。
取整和舍弃
在数字音频中,每个采样都经过分析,处理,转换成音频,然后从音箱里播放出来。当一个采样在你的DAW里被处理时(增益,失真等),它们通过基本的乘除运算让数字代表的采样被改变。很简单,如果我们不做取整的处理(1dB的增益需要乘以1.122018454),那么即使8或4位的采样精度也会超过24位的空间。
所以,因为我们只有24位,所以这些长的数字必须满足这个空间。为了这么做,数字信号处理器会对最低有效位(LSB - 位数里的最后一位 - 例如,16位采样里的第16个数字)做取整或舍弃的处理。取整相当直接,采用的也是你熟悉的算法。舍弃则不通过分析就弃掉最低有效位后的信息。
这两种处理都是存在一定误差的,它们会给等式引入误差,这些误差通过信号链处理进行累加,最后反应出来。积极的一面是LSB是振幅最小的数字位,所以在16位采样里误差出现在-96dB,24位采样在-144dB。同时,数字信号处理器的不同的结构和方式也会导致结果的不同。
抖动处理
我们现在知道了数字信号处理必然会有很多误差的存在。那么,总数的近似值也会出现很多误差。这些错误不仅让音频无法完全复原,也引入了不自然的听感。
为了消除这些不自然,我们将计算而得的低振幅噪音加入用到信号中,我们称之为抖动处理。抖动的噪音振幅很低,虽然还是能听见一些,但比没有加入的情况要好。
要记住抖动的噪音是会不断累积的。当你给信号增加噪音时,信噪比就降低了。如果反复操作,这个比例就会持续降低,会给信号增加不确定的因素。这就是为什么抖动处理通常被应用在母带处理的最后一步,而且只使用一次。
抖动处理有一段相当有趣的历史:
最早的抖动处理出现在二战时期。轰炸机使用机械计算机来做导航和弹道计算。奇怪的是这些计算机在空中的处理性能更加精确。工程师们意识到,飞机的振动减少了运动部分的误差。它们的运动变得更有连续性,而不是突然的振动。计算机里有小的振动电机,它们的振动被成为抖动,这是从中世纪的英文单词“didderen”衍生而来的,意思是“发抖”。现代辞典定义抖动(dither)为高度紧张,迷惑或焦虑的状态。在一定程度上来说,抖动让数字化的系统更接近了模拟系统。
- Ken Pohlmann,数字音频规则
采样率
根据理论,每秒44.1K的采样率已经足够覆盖人耳的听力范围了。你可能在无意中了解过尼奎斯特定理,它表述了如何避免混淆现象(一种失真)和如何通过采样重建所有频率,它要求使用信号最高频率的两倍来进行采样(这个定理也应用在音频之外的媒体上,这里我们就不进行深入探讨了)。
人耳的听力范围最高能达到20kHz(多数研究表明这个数字实际是在17K左右),因此40K的采样率就足够听清每一个频率了。44.1K是行业标准,因为一些原因被当时寡头垄断的SONY确定。
那么长话短说,数字音频采样必须高于尼奎斯特频率,因为实际运用中,采样会在数模转换的过程中通过低通滤波来避免混淆现象。低通滤波器的斜度越平缓,制造的成本越低。因此,通常使用低通滤波器的音频信号会在2kHz的位置有平缓的斜度。比如,要保留20kHz以下完整的频谱,必须在44kHz的采样率下完成(20K[最高频率]+2K[低通滤波器的斜度]x2[尼奎斯特理论]=44K)
最终,44.1K的标准在Sony和Philips(它们都有相似的最终目的)的斗争中被确定。这也是根据音频采样率和录像磁带剖析学背后的数学理论得出的。这样音频和视频可以在同样录像磁带中共存,拥有更高的性价比。然而,48K是音频相关的视频的标准。CD音频还是保持在44.1K。
图片是用Logic录制的“自然”底鼓的采样电平。你可以看到声音是怎么用波形近似的矩形来采样和量化的。原始的鼓声不会有这样的失真。
你能听到吗?
有人声称自己能够听出44.1K采样率和96K采样率的区别。大部分人把这种不同归结于频宽的增加(96K代表频率上限为48kHz)。虽然我也意识到更多的采样会带来一些细微的清晰度改变,但是因此认为这些不同是因为更高的频率产生的是不太正确的(至少不是直接相关)。
多种测试表明,实际上是低通滤波造成了这些听觉上的差异。因为低通滤波对更高采样率产生的不自然影响已经不在可听的频谱范围里了。将滤波器切断的点从22kHz移到48kHz,因此降低了滤波器在可听范围内的影响,确保了大部分的不自然现象出现在超声波的频谱中。
这样可以使可听频谱更加干净,造成了更高的频谱/采样率能更真实地还原音频的错觉。虽然这的确是创造出了更真实的音频,不过这都是因为使用高的采样率来抵消数模转换过程里低通滤波器设计不足的原因。
这些信息够了?
那么,这就是我要说的。我意识到,这可能需要专门开设一门课程,不过总比一点信息没有的好。了解你正在使用的工具绝不会是一件坏事,作为音乐制作人,这些都是你需要知晓的细节。不过,对于母带工程师和发烧友,这些可能不太适合。LLM