音频相关基础知识（采样率、位深度、通道数、PCM、AAC）

最新推荐文章于 2024-04-17 13:39:00 发布

自学半天的大一麦克

最新推荐文章于 2024-04-17 13:39:00 发布

阅读量3w

点赞数 22

分类专栏：音视频文章标签：音频编码解码

本文链接：https://blog.csdn.net/qq_41824928/article/details/108124382

版权

音视频专栏收录该内容

10 篇文章 7 订阅

订阅专栏

（这其实是一篇转载好几篇的博客，然后自己加了少许）

转载博客1

关于采样率&位深&码率&无损的一些心得_Marenow的博客-CSDN博客_flac格式采样率比特率记笔记，记下来自己的一些关于音频基础知识的总结。采样率外界的声音都是模拟信号，在数字设备中A/D转化成为了由0、1表示的数字信号后被储存下来。数字信号都是离散的，所以采样率是指一秒钟采样的次数，采样率越高，还原的声音也就越真实。由于人耳听觉范围是20Hz~20kHz，根据香农采样定理(也叫奈奎斯特采样定理)，理论上来说采样率大于40kHz的音频格式都可以称之为无损格式。但在40kHz采样率下得...https://blog.csdn.net/Marenow/article/details/85253283

采样率

外界的声音都是模拟信号，在数字设备中A/D转化成为了由0、1表示的数字信号后被储存下来。数字信号都是离散的，所以采样率是指一秒钟采样的次数，采样率越高，还原的声音也就越真实。由于人耳听觉范围是20Hz~20kHz，根据香农采样定理(也叫奈奎斯特采样定理)，理论上来说采样率大于40kHz的音频格式都可以称之为无损格式。但在40kHz采样率下得到的声音已没有细节可言，所有频率都是只采样了一个波峰一个波谷。现一般的专业设备的采样频率为44.1kHz。44.1kHz是专业音频中的最低采样率，也叫“CD级音质”(22.05kHz采样率为广播级音质)。更细化的还有96kHz，192kHz等等，当然要听到这些更高采样率中的细节取决于耳朵和设备了。

位深度

若要尽可能精确地还原声音，只有高采样率是不够的。描述一个采样点，横轴(时间)代表采样率，纵轴(幅度)代表位深度。16bit表示用16位(2个字节)来表示对该采样点的电平(通俗点来说和音量大小成正比)进行编码时所能达到的精确程度，也就是把纵轴分为16份描述电平大小，如-3dB和-3.1415926dB的精度差别。同理还有20bit和24bit。16bit被认为是专业音频领域里面最低的位深度标准，和44.1kHz的采样率一样，共同作为专业音频和消费产品的标准。位深度也直接关系到信号噪声比的大小，直接影响到所录制信号的整体动态范围。

码率

在无损无压缩格式中(如.wav)，码率=采样率x位深度x声道数。在有损压缩中(如.mp3)码率便不等于这个公式了，因为原始信息已经被破坏。码率描述了一秒钟的该音频的信息量，因而声音文件总的大小是码率x总时长。码率也叫位速，单位是比特率(bps,bit per second)。通常听歌时候的128kbps、320kbps均为码率，其中320kbps是mp3格式的最高比特率。但和44.1kHz采样率、16bit位深的wav文件比起来(计算一下双声道的码率是44.1x16x2=1411.2kbps)，相去甚远。压缩后码率便发生了变化。无损压缩中的码率与音质无关，有损压缩中的码率和音质正相关。

无损压缩

无损压缩指的是在无损格式之间的压缩(转换)，无论压缩(转换)成什么格式，音质都是相同的，并且都能还原成最初同样的文件。平时所说的无损均是指无损压缩，没有无损码率的说法。对于各种格式的压缩都是对应着一种算法(或者说编码)，播放的时候需要有解码器进行译码，而且不同的解码器也可能会影响解压出来的文件完整性。常见的无损格式有：
wav：微软公司的一种声音文件格式，是无压缩的最接近真实声音的格式(其次是midi)，支持多采样率多量化精度。所有的无损格式本质都是wav的压缩，在播放时会转回wav。
flac：Free Lossless Audio Coded，是国际通用格式，特点是压缩比高，编码算法也相当成熟，当flac文件受损时依然能正常播放。另外，该格式也是最先得到广泛硬件支持的无损格式。
ape：使用Monkey‘s Audio软件对CD抓轨而转换成的文件格式，但优势并不突出，解码较慢。
wma-lossless：也是微软公司出品，特点是压缩比高，但未成为主流。
aiff：苹果公司出品，是Apple苹果电脑上面的标准音频格式。
DSD：Sony大法的，不是很了解，欣赏不来辣种文化，但就说单纯的冲，还是要冲的。

有损压缩

有损压缩指的是声音信息在压缩过程中发生了丢失，且所丢失的声音无法用采样率和位数表示出来。但特点就是压缩后的文件变的很小，常在流媒体中使用。常见的有损格式有：
mp3：模拟人耳听觉研究出的一种复杂算法，被称为“心理声学模型”。它通过抽取音频中的一些频段来达到提高压缩比，降低码率，减少所占空间，但同时声音的细节如人声的情感、后期的混响等等都已经发生变形。盲听的话也很难较快地分辨出wav和mp3，需要借助设备。mp3目前是最为普及的声频压缩格式，可以最大程度地保留压缩前的音质。
wma：微软公司力作，特点是在较低比特率下(如64kbps)，wma可以在与mp3相同的音质条件下获得更小的体积。并且在超低比特率(如16kbps)，wma音质比mp3要好得多。
aac：苹果电脑上的声音文件储存格式。
ogg：完全免费、开放和没有专利限制，但普及性较差。

转载博客2

数字音视频技术：音频中的一些概念(采样率, 位深度, 声道数, Sample/Frame/Packet) - 夜行过客 - 博客园1. 采样率采样率(sampleRate), 采样率就是每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示，说的简单一点就是每秒在每个声道上采样的个数。采样就是https://www.cnblogs.com/yongdaimi/p/12487752.html

1. 采样率

采样率(sampleRate), 采样率就是每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示，说的简单一点就是每秒在每个声道上采样的个数。采样就是把模拟信号数字化的过程，不仅仅是音频需要采样，所有的模拟信号都需要通过采样转换为可以用0101来表示的数字信号，示意图如下所示：

蓝色代表模拟音频信号，红色的点代表采样得到的量化数值。采样频率越高，红色的间隔就越密集，记录这一段音频信号所用的数据量就越大，同时音频质量也就越高。根据奈奎斯特理论，采样频率只要不低于音频信号最高频率的两倍，就可以无损失地还原原始的声音。通常人耳能听到频率范围大约在20Hz～20kHz之间的声音，为了保证声音不失真，采样频率应在40kHz以上。常用的音频采样频率有：8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz、96kHz、192kHz等。

2. 位深度

位深度，也叫位宽，量化精度，上图中，每一个红色的采样点，都需要用一个数值来表示大小，这个数值的数据类型大小可以是：4bit、8bit、16bit、32bit等等，位数越多，表示得就越精细，声音质量自然就越好，当然，数据量也会成倍增大。常见的位宽有：8bit 或者 16bit。

3. 声道数

由于音频的采集和播放是可以叠加的，因此，可以同时从多个音频源采集声音，并分别输出到不同的扬声器，故声道数一般表示声音录制时的音源数量或回放时相应的扬声器数量。单声道（Mono）和双声道（Stereo）比较常见，顾名思义，前者的声道数为1，后者为2。

4. Sample、Frame、Packet

这三个概念很重要，很容易搞混，苹果在其Core Audio 官方文档中明确定义了 audio stream, channel, sample, frame, packet 和sample rate 这些概念： What Is Core Audio?

A sample is single numerical value for a single audio channel in an audio stream.
A frame is a collection of time-coincident samples. For instance, a linear PCM stereo sound file has two samples per frame, one for the left channel and one for the right channel.
A packet is a collection of one or more contiguous frames. A packet defines the smallest meaningful set of frames for a given audio data format, and is the smallest data unit for which time can be measured. In linear PCM audio, a packet holds a single frame. In compressed formats, it typically holds more; in some formats, the number of frames per packet varies.

从上面文档定义，简单来说，可以这样理解：

sample 是一个声道的一个采样。
frame 是一个时间点的样本集合，举例来说，一个线性的PCM 双声道音频文件每个Frame有2个样本，一个左声道样本，和一个右声道样本。
packet 是一个或多个 frame 的集合，一个 packet 包含多少个 frame，是由声音文件格式决定的。譬如 PCM 文件格式中一个 packet 包含 1 个frame。而 MP3 文件格式中一个 packet 包含 1152 个frames。

从上面定义来看这三个概念互相独立，定义清晰。

这些概念为什么容易搞混？

然而在日常讨论中，会在多种场合下使用 frame 和 packet 两个词，但是各种场合下它们代表的含义是不同的，所以比较容易搞混。

举下面不同场景的例子来说明：

1. 在讨论 MPEG 格式的时候，如网上常见的MPEG文件格式介绍，把 MPEG 一个 header + payload （帧头 + 数据内容）的数据结构叫做一个 frame (MPEG数据帧)，一个 MPEG 数据帧包含了多个音频帧。事实上这个东东在上述 iOS Core Audio 定义中，却又被称为一个 packet。所以两份文档中，分别使用了 packet 和 frame 两个词指代同一个概念。

2. 网络传输音频的时候，会把音频数据进行打包发送，这个时候也用到 packet 的概念，他有自己独立的 packet header 定义，又跟 iOS Core Audio 定义的 packet 不是同一个了。

3. 在讨论计算机网络时，硬件数据帧称为 frame，而数据链路层将 frame 打包成 packet 之后提供给上层网络层使用。这里 frame 和 packet 的概念又跟音频讨论中的含义不一样了。

4. FFmpeg是一个音/视频编码解码及转换的开源软件。它定义了两个结构体，AVPacket 一份代表经过压缩的音频/视频数据，AVFrame 代表一份解压后的一个音频/视频数据。视频一个 AVPacket 通常只包含一个 AVFrame，经过压缩的音频 AVPacket 通常包括多个 AVFrame。可以看到 FFmpeg 在处理音频和视频时，对 packet 和 frame 概念的使用跟 iOS Core Audio 基本一致。
从上面例子可以看到，不同场景下都使用了 frame 和 packet 两个词语会代表不一样的含义。更糟糕的是，如果使用了中文“帧”，在某些语境下，到底是代表数据帧、音频帧、packet 还是 frame 呢，就更容易分不清楚了。

转载博客3

(链接搞掉了)

单个音频采样用得较多位深度的是16位，当然也可以使用8位，24位，甚至32位。
声道就是同时采集音频的通道数，用的较多的是2声道，也有单声道，5.1声道,7.1声道等。
采样频率就是1秒钟采样的个数，一般用44.1kHz，也可以是8kHz,11.025kHz,48kHz,96kHz等。
一帧应该是指持续采样时间，这个是很灵活的可以使用20ms，也可是200ms，一般来说时间越短延时就越少。
这样一帧的PCM数据大小就很容易计算出来：PCMBufferSize = 采样率*采样时间*采样位深/8*通道数 Bytes

做音频，肯定要对samples有所了解，其中几种AAC和mp3的samples如下：

PROFILE	SAMPLES
HE-AAC v1/v2	2048
AAC-LC	1024
AAC-LD/AAC-ELD	480/512
mp3	1152

HE-AAC v1/v2 可参考文档《【初学音视频】RTMP拉流保存aac（flv保存为aac）》：【初学音视频】RTMP拉流保存aac（flv保存为aac）-CSDN博客https://blog.csdn.net/qq_41824928/article/details/107636845
简单来说，HE-AAC v1即AAC(LC) + SBR技术； HE-AAC v2即HE-AAC v1 + PS技术("Parametric Stereo"(参数立体声))

示例1（以AAC-LC，位深度16位，立体声（2声道）为例）：
一帧AAC-LC数据，包含1024个SAMPLES（即一帧AAC-LC数据，采样率*采样时间 = 1024）
那么一帧AAC-LC解码成PCM后，PCM的大小(PCMBufferSize) = 采样率*采样时间*采样位深/8*通道数 Bytes = 1024 * 16/8 * 2 = 4096 bytes

示例2（以mp3为例）:
frame_duration = 1152 / sample_rate
例如：sample_rate = 44100HZ时，计算出的时长为26.122ms（0.026122s），这就是经常听到的mp3每帧播放时间固定为26ms的由来。

转载百度百科

pcm编码_百度百科PCM（Pulse Code Modulation）脉冲编码调制是数字通信的编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。https://baike.baidu.com/item/pcm%E7%BC%96%E7%A0%81/10865033?fr=aladdin AAC_百度百科AAC（Advanced Audio Coding），中文名：高级音频编码。出现于1997年，基于MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、索尼等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC。https://baike.baidu.com/item/aac/382962#viewPageContent

PCM

在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的 WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

AAC

AAC，全称Advanced Audio Coding，是一种专为声音数据设计的文件压缩格式。与MP3不同，它采用了全新的算法进行编码，更加高效，具有更高的“性价比”。利用AAC格式，可使人感觉声音质量没有明显降低的前提下，更加小巧。

AAC特点

①提升的压缩率：可以以更小的文件大小获得更高的音质；

②支持多声道：可提供最多48个全音域声道；

③更高的解析度：最高支持96KHz的采样频率；

④提升的解码效率：解码播放所占的资源更少；

杜比实验室的结论

①128Kbps的AAC立体声音乐被专家认为不易察觉到与原来未压缩音源的区别；

②AAC格式在96Kbps码率的表现超过了128Kbps的MP3格式；

③同样是128Kbps，AAC格式的音质明显好于MP3；

④AAC是唯一一个，能够在所有的EBU试听测试项目的获得“优秀”的网络广播格式。

总的来讲，AAC可以说是极为全面的编码方式，一方面，多声道和高采样率的特点使得它非常适合DVD－Audio；另一方面，低码率下的高音质则使它也适合移动通讯、网络电话、在线广播等领域，真是全能的编码方式。

转载5

MPEG-2 AAChttp://202.114.32.200:8080/jpkc/dmtjs/kcxx/kcxx/llxx/lzfdmtjs/course1-9-5.html AAC支持的采用频率可从8 kHz到96 kHz，AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、16个低频音效加强通道LFE (low frequency effects)、16个配音声道(overdub channel)或者叫做多语言声道(multilingual channel)和16个数据流。MPEG-2 AAC在压缩比为11:1，即每个声道的数据率为(44.1×16 )/11=64 kb/s，而5个声道的总数据率为320 kb/s的情况下，很难区分还原后的声音与原始声音之间的差别。与MPEG的层2相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高，与MPEG的层3相比，在质量相同的条件下数据率是它的70％。

AAC规格（配置）

AAC标准定义了三种配置：基本配置、低复杂性配置和可变采样率配置：

1. 基本配置(Main Profile)：

在这种配置中，除了“增益控制(Gain Control)”模块之外，AAC系统使用了图中所示的所有模块，在三种配置中提供最好的声音质量，而且AAC的解码器可以对低复杂性配置编码的声音数据进行解码，但对计算机的存储器和处理能力的要求方面，基本配置比低复杂性配置的要求高。

2. 低复杂性配置(Low Complexity Profile)：

在这种配置中，不使用预测模块和预处理模块，瞬时噪声定形(temporal noise shaping，TNS)滤波器的级数也有限，这就使声音质量比基本配置的声音质量低，但对计算机的存储器和处理能力的要求可明显减少。

3. 可变采样率配置(Scalable Sampling Rate Profile)：

在这种配置中，使用增益控制对信号作预处理，不使用预测模块，TNS滤波器的级数和带宽也都有限制，因此它比基本配置和低复杂性配置更简单，可用来提供可变采样频率信号。

其实规格还有很多种，可见博客【初学音视频】RTMP拉流保存aac（flv保存为aac）-CSDN博客https://blog.csdn.net/qq_41824928/article/details/107636845 中的Table.1.1或者ISO14496-3表1.1

自学半天的大一麦克

关注

22
点赞
踩
130

收藏

觉得还不错? 一键收藏
0
评论
音频相关基础知识（采样率、位深度、通道数、PCM、AAC）

单个音频采样用得较多的是16位，当然也可以使用8位，24位，甚至32位。声道就是同时采集音频的通道数，用的较多的是2声道，也有单声道，5.1声道,7.1声道等。采样频率就是1秒钟采样的个数，一般用44.1kHz，也可以是8kHz,11.025kHz,48kHz,96kHz等。一帧应该是指持续采样时间，这个是很灵活的可以使用20ms，也可是200ms，一般来说时间越短延时就越少。这样一帧的PCM数据大小就很容易计算出来：PCMBufferSize = 采样率*采样时间*采样位深/8*通道数 Bytes
复制链接

扫一扫