音频基础概念

Linux老A

已于 2022-12-11 11:19:58 修改

阅读量1.5k

点赞数

分类专栏： Audio驱动文章标签：音视频

于 2022-12-10 22:56:33 首次发布

本文链接：https://blog.csdn.net/LinuxArmbiggod/article/details/128270333

版权

Audio驱动专栏收录该内容

4 篇文章 3 订阅

订阅专栏

一音频知识

现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。PCM技术就是要把声音从模拟转换成数字信号的一种技术，他的原理简单地说就是利用一个固定的频率对模拟信号进行采样，采样后的信号在波形上看就像一串连续的幅值不一的脉冲，把这些脉冲的幅值按一定的精度进行量化，量化之后就行进行编码。自然界的音频都是模拟信号，要在计算机中模拟出来，必须转成数字信号，这就是模数转换。

二 PCM介绍

PCM（Pulse Code Modulation），即脉冲编码调制技术。由于我们人耳听到的声音均为模拟信号，那么我们如何将听到的信息存储起来呢？这就涉及到了PCM技术。

PCM技术就是把声音从模拟信号转化为数字信号的技术，即对声音进行采样、量化的过程，经过PCM处理后的数据，是最原始的音频数据，即未对音频数据进行任何的编码和压缩处理。简单理解就是以一个固定的频率对模拟信号进行采样，并将采样的信号按照一定精度进行量化，最终量化后的值被输出，记录到存储介质中。

衡量量化的指标就是采样位数（深度）：即指描述数字信号所使用的的位数，位数越多，分级就越细，量化误差就越小。

采样频率：
采样频率是设备一秒钟内对模拟信号的采样次数，采样频率越高，声音的质量也就越好，声音的还原也就越真实，但同时它占的资源比较多。

5kHz的采样率仅能达到人们讲话的声音质量。
11kHz的采样率是播放小段声音的最低标准，是CD音质的四分之一。
22kHz采样率的声音可以达到CD音质的一半，目前大多数网站都选用这样的采样率。
44kHz的采样率是标准的CD音质，可以达到很好的听觉效果。
48KHz：miniDV、数字电视、DVD、电影和专业音频。

音频文件的生成过程是将声音信息 PCM处理(采样、量化) 和编码产生的数字信号的过程，我们人耳所能听到的声音频率范围为（20Hz~20KHz），因此音频文件格式的最大带宽是20KHZ。

根据奈奎斯特的理论，音频文件的采样率一般在40~50KHZ之间。

奈奎斯特采样定律，又称香农采样定律，即：为了不失真地恢复模拟信号，采样频率应该大于等于模拟信号频谱中最高频率的2倍。

采样位数：
采样位数比如8bit(现在少见)、16bit(常用)和24bit，指的是描述数字信号所使用的位数，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。8bits为低品质，16bits为高品质

量化：
通过采样时测的的模拟电压值，要进行分级量化，按整个电压变化的最大幅度划分成几个区段，把落在某区段的采样到的样品值归成一类，并给出相应的量化值。

声道数：
又称为通道数，由于音频的采集和播放是可以叠加的，因此，可以同时从多个音频源采集声音，并分别输出到不同的扬声器，故声道数一般表示声音录制时的音源数量或回放时相应的扬声器数量。
常见的单声道和立体声（双声道）
单声道：采样数据为8位的短整数；
双声道：采样数据为16位的整数，高八位(左声道)和低八位(右声道)分别代表两个声道

音频数据大小计算：
[时长]s * [采样率]Hz * [采样位数]bit * [声道数] / 8 = [文件大小]byte。
某音频信号是采样率为8kHz、声道数、位宽为16bit，时长为1s，则音频数据的大小为：1 * 8000 * 16 *2 = 256000 bit / 8 = 32000 byte / 1024 = 31.25 KB；

音频帧：
音频跟视频很不一样，视频每一帧就是一张图像，音频数据是流式的，不同的编码格式各自不同的编码标准，拿PCM和MP3做一个对比。PCM因为没有压缩，根据采样率位宽等数据可以得到每秒的音频数据，并
不需要帧的概念，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。而 MP3则是因为压缩后信息比较多，则有了类似H264的帧概念，每一个帧都有一个帧头

录播：
播放音乐时，应用程序从存储介质中读取音频数据（MP3、WMA、AAC…），经过解码后，最终送到音频驱动程序中的就是PCM数据。反过来，在录音时，音频驱动不停地把采样所得的PCM数据送回给应用程序，由应用程序完成压缩、存储等任务。所以，音频驱动的两大核心任务就是：
playback：如何把用户空间的应用程序发过来的PCM数据，转化为人耳可以辨别的模拟音频；
capture：把mic拾取到得模拟信号，经过采样、量化，转换为PCM信号送回给用户空间的应用程序