[笔记]音视频学习之视音频数据处理入门《二》PCM

最新推荐文章于 2022-11-11 14:48:45 发布

二进制怪兽

最新推荐文章于 2022-11-11 14:48:45 发布

阅读量416

点赞数

分类专栏：音视频 # 视音频数据处理入门文章标签： PCM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq1113673178/article/details/116493597

版权

音视频同时被 2 个专栏收录

30 篇文章 0 订阅

订阅专栏

视音频数据处理入门

6 篇文章 0 订阅

订阅专栏

视音频数据处理入门：PCM音频采样数据处理

PCM数据格式介绍

PCM数据格式

文章目录

PCM数据
PCM音频采样数据处理
总结

PCM数据

PCM

PCM全称Pulse-Code Modulation，脉冲调制编码。

在音视频中，PCM是一种用数字表示采样模拟信号的方法。

音频模拟信号转换为数字过程：

Sampling(采样)
Quantization(量化)
Coding(编码)

采样率(Sample rate)

每秒钟的样本数也被称之为采样率（Sample rate）。在Sampling图示案例中，采样率为每秒34次。意味着在一秒的时间内，原始信号被采样了34次（也就是蓝色垂直线段的数量）。

通常，采样率的单位用Hz表示，例如1Hz表示每秒钟对原始信号采样一次，1KHz表示每秒钟采样1000次。1MHz表示每秒钟采样1百万次。

根据场景的不同，采样率也有所不同，采样率越高，声音的还原程度越高，质量就越好，同时占用空间会变大。

例如：通话时的采样率为8KHz，常用的媒体采样率有44KHz，对于一些蓝光影片采样率高达1MHz。

采样率（sample rate），用来告诉驱动每秒钟应该播放多少个采样数据。

Quantization（量化）

原始信号采样后，需要通过量化来描述采样数据的大小。

量化处理过程，就是将时间连续的信号，处理成时间离散的信号，并用实数表示。这些实数将被转换为二进制数用于模拟信号的存储和传输。

位深

bit-depth（位深）：用来描述存储数字信号值的bit数。

较常用的模拟信号位深有：
8-bit：2^8 = 256 levels，有256个等级可以用于衡量真实的模拟信号。
16-bit：2^16 = 65,536 levels，有65,536个等级可以用于衡量真实的模拟信号。
24-bit：2^24 = 16,666,216 levels，有16,666,216个等级可以用于衡量真实的模拟信号。

位深越大，对模拟信号的描述将越真实，对声音的描述更加准确。

本质

量化的过程就是将一个平顶样本四舍五入到一个可用最近level描述的过程。如图中黑色加粗梯形折线。量化过程中，我们将尽量让每个采样和一个level匹配，因为每个level都是表示一个bit值。

Encoding（编码）

在这里插入图片描述

在编码这一步，我们会将时间线上的每个sample数据转化为对应的二进制数据。

采样数据经过编码后产生的二进制数据，就是PCM数据。PCM数据可以直接存储在介质上，也可以在经过编解码处理后进行存储或传输。

PCM数据常用量化指标

采样率(Sample rate)：每秒钟采样多少次，以Hz为单位。详见：**采样率(Sample rate)**一节。

位深度(Bit-depth)：表示用多少个二进制位来描述采样数据，一般为16bit。详见：**Quantization(量化)**一节。

字节序：表示音频PCM数据存储的字节序是大端存储（big-endian）还是小端存储（little-endian），为了数据处理效率的高效，通常为小端存储。

声道数（channel number）：当前PCM文件中包含的声道数，是单声道（mono）、双声道（stereo）？此外还有5.1声道等。

采样数据是否有符号（Sign）：要表达的就是字面上的意思，需要注意的是，使用有符号的采样数据不能用无符号的方式播放。

以FFmpeg中常见的PCM数据格式s16le为例：它描述的是有符号16位小端PCM数据。

s表示有符号，16表示位深，le表示小端存储。

PCM数据流

PCM格式

8 Bit 单声道

一个声音通道，用一个传声器拾取声音，用一个扬声器进行放音的过程，称之为单声道。单声道是指把来自不同方位的音频信号混合后统一由录音器材把它记录下来，再由一只音箱进行重放。

格式：

采样1	采样2
数据1	数据2

8 Bit 双声道

双声道就是有两个声音通道，其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置，在电路上它们往往各自传递的电信号是不一样的，电声学家在追求立体声的过程中，由于技术的限制，在最早的时候只有采用双声道来实现。

格式：
第一个字节存放第一个左声道数据（FL），第二个字节放第一个右声道数据（FL），第三个字节放第二个左声道数据（FL）…

采样1		采样2
声道1数据1	声道2数据1	声道1数据2	声道2数据2

16 Bit 单声道

格式：

采样1		采样2
数据1低字节	数据1高字节	数据1低字节	数据1高字节

16 Bit 双声道

格式：

采样1				采样2
声道1数据1低字节	声道1数据1高字节	声道2数据1低字节	声道2数据1高字节	声道1数据2低字节	声道1数据2高字节	声道2数据2低字节	声道2数据2高字节

音量控制

音量的表示实际上就是量化过程中每个采样数据的level值，只要适当的增大或者缩小采样的level就可以达到更改音量的目的。

但需要说明的是，并是不将level值*2就能得到两倍于原声音的音量。

因为如下两个原因：

数据溢出
对数描述

PCM音频采样数据处理

总结

二进制怪兽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

二进制怪兽 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。