音频基础知识详解

houxiaoni01

已于 2023-03-01 13:41:11 修改

阅读量1w

点赞数 7

分类专栏：音视频基础文章标签：采样率声道数位深度音频

于 2020-10-20 10:55:11 首次发布

本文链接：https://blog.csdn.net/houxiaoni01/article/details/109175486

版权

参考自：https://www.jianshu.com/p/86e1b1017564
　　　　https://blog.csdn.net/qq_25333681/article/details/90682989

1、引言

现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于音频文件。音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音，所以音频文件的采样率一般在40~50KHZ，比如最常见的CD音质采样率44.1KHZ。

2、音频基本概念

采样： 波是无限光滑的，采样的过程就是从波中抽取某些点的频率值，就是把模拟信号数字化。如下图所示：
在这里插入图片描述
蓝色代表模拟音频信号，红色代表采样得到的量化数值

采样频率（Sample Rate）： 单位时间内对模拟信号的采样次数，它用赫兹（Hz）来表示。采样频率越高，声音的还原就越真实越自然，当然数据量就越大。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。8KHz - 电话所用采样率, 对于人的说话已经足够，22.05KHz只能达到FM广播的声音品质(适用于语音和中等品质的音乐)，44.1KHz则是是最常见的采样率标准，理论上的CD音质界限，48KHz则更加精确一些(对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值)。

小知识点：
5kHz的采样率仅能达到人们讲话的声音质量。
11kHz的采样率是播放小段声音的最低标准，是CD音质的四分之一。
22kHz采样率的声音可以达到CD音质的一半，目前大多数网站都选用这样的采样率。
44kHz的采样率是标准的CD音质，可以达到很好的听觉效果。

重采样： 主要是分为上采样和下采样，在进行采样的过程中，需要注意采样的倍率的问题，并不是可以随意的改变采样率的大小的，根据采样定理：在进行模拟/数字信号的转换过程中，当采样频率大于信号中最高频率的2倍时，采样之后的数字信号完整地保留了原始信号中的信息，一般实际应用中保证采样频率为信号是最高频率的5~10倍。采样定理又称奈奎斯特定理。

上采样：在进行采样的过程中，通常是分为上采样和下采样的，而区分的依据是重新采样的时候新采样率和原采样率的大小的比较，如果是大于原信号就成为是上采样，如果是小于原信号就称为下采样。而上采样的实质也就是内插或插值。
下采样：新的采样率的大小小于原采样率的大小。
方法：重采样的时候，主要是有最邻近法、双线性内插法以及三次卷积内插法这三种。在卷积网络中还有反卷积，亚像素卷积等。

采样位数（Sample Bits，也称采样精度、量化级、样本尺寸、量化数据位数）： 每个采样点能够表示的数据范围。采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。8位字长量化（低品质）和16位字长量化（高品质），16 bit 是最常见的采样精度。