声音、音频采样率、采样精度等常识概念

最新推荐文章于 2025-03-29 20:15:23 发布

eric88

最新推荐文章于 2025-03-29 20:15:23 发布

阅读量1.4w

点赞数 2

分类专栏：语音识别

语音识别专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了声音的基础概念，包括能量波、频率、振幅、采样率、CODEC、DAC、ADC、EQ、BTL原理、SRC、晶振、AD采样、采样位数与频率、WAV与MP3文件大小换算，以及关键参数对音质的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是声音？

能量波，有频率有振幅，频率高低就是音调，振幅大小就是音量；采样率是对频率采样，采样精度是对幅度采样

人耳能听到的频率范围是200-20KHz，

什么是CODEC？

音频压缩CO+解压缩DEC，CODEC就是多媒体数字信号编解码器，主要负责DAC和ADC。不管是音频加速器好，还是I/O控制器好，他们输入输出的都是纯数字信号，我们要使用声卡上的Line Out插孔输出信号的话，信号就必须经过声卡上的CODEC的转换处理。可以说，声卡模拟输入输出的品质和CODEC的转换品质有着重大的关系，音频加速器或I/O控制器决定了声卡内部数字信号的质量，而CODEC则决定了模拟输入输出的好坏。

什么是DAC ADC？

模数、数模转换，不同精度对应不同的声音保真

什么是EQ？

图中范围是-15dB-15dB

BTL原理

(Bridge-Tied-load)意为桥接式负载。

负载的两端分别接在两个放大器的输出端。其中一个放大器的输出是另外一个放大器的镜像输出，也就是说加在负载两端的信号仅在相位上相差180°。负载上将得到原来单端输出的2倍电压。从理论上来讲电路的输出功率将增加4倍。BTL电路能充分利用系统电压，因此BTL结构常应用于低电压系统或电池供电系统中。

什么是SRC？

声音是一种能量波，有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线其实由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取得点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化值为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。

SRC的作用就是改变信号的采样率，低采样率往高采样率转换时就是一个重采样的过程，重采样对象不再是原始信号，而是这个低采样率的信号，因为采样率不够需要插入更多的采样点以达到需要的采样率和采样大小，在信号频率较低的时候，重采样算法的好坏并不会影响到什么，因为波长长，采样点多，但是高频就很难对付了，因为波长短，采样点少，44.1kHz的采样率情况下，一个20kHz的波仅仅有3个不到的采样点，转换到更高频率的时候势必插入更多的点，要尽量保持原貌，这个点该怎么插，这是一个非常有难度的算法，举一个例子

假设三角形是一秒时间长度的一个波，采样率为3Hz，现在我们需要将采样率SRC到4Hz，我们唯一能作的就是时间轴（水平向）等分出4个点，取这个点垂直线和三角形边交汇处的值，这个过程就是重采样，结果变成了一个梯形。在波形图中，垂直的轴对应波的能量值，这意味着波的信号强度变弱了，出现了衰减。这个例子可以说明非整数倍的频率转换将改变波形，改变是不可避免的，算法好可以尽量保证转化后的波形和转换前的相似，但好的算法非常少，现有的大部分声卡SRC算法都是很糟糕的，正如上面这个例子一样，高频衰减就是因为SRC导致的，SRC还会导致一些其他问题，例如互调失真加剧等

时域采样定理

频带为F的连续信号 f(t)可用一系列离散的采样值f(t1),f(t1±Δt)，f(t1±2Δt)，...来表示,只要这些采样点的时间间隔Δt≤1/2F，便可根据各采样值完全恢复原来的信号f(t)

什么是Crystal？

Crystal中文名就是石英晶体振荡器或者简称晶振。常见的声卡都支持44.1kHz和48kHz的信号输入，而这2种采样率不是整数倍关系，如果同时支持这2种采样率输出的话，声卡上需要2颗晶振。分别为12.288MHz和24.576MHz（或者为他们整数倍的频率）。

音频采样 AD

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围（相当于音调），可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。

采样位数采样精度

采样位数可以理解为采集卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。我们首先要知道：电脑中的声音文件是用数字0和1来表示的。所以在电脑上录音的本质就是把模拟声音信号转换成数字信号。反之，在播放时则是把数字信号还原成模拟声音信号输出。采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。8位代表2的8次方--256，16 位则代表2的16次方--64K。比较一下，一段相同的音乐信息，16位声卡能把它分为64K个精度单位进行处理，而8位声卡只能处理256个精度单位，造成了较大的信号损失，最终的采样效果自然是无法相提并论的。

音频采样频率 Fs

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样频率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为 22.05KHz、44.1KHz、48KHz三个等级，22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值

WAV音频格式文件大小、播放时间换算

采样率一般是44.1K，16bit采样精度，存储成WAV格式大小 = 44.1KHz(采样率) X 16bit(采样精度) X 2(双声道) X 播放时间

WAV格式是没有压缩无损的，MP3格式是按1:12压缩保存的，所以MP3格式大小等于上式的1/12。