《音视频开发进阶指南》读书笔记（一） —— 音视频基础概念

最新推荐文章于 2024-08-15 17:52:00 发布

weixin_34268843

最新推荐文章于 2024-08-15 17:52:00 发布

阅读量912

点赞数

文章标签：移动开发人工智能

原文链接：https://juejin.im/post/5cd6349b6fb9a032060c447d

版权

前言

最近要学音视频，在图书馆借到这本《音视频开发进阶指南》，读了一段时间觉得挺好就在某宝买了。

以后一段时间应该都会沉浸在研究音视频中，开个专题记录哈每一章的读书笔记吧(以iOS开发的角度记录，安卓的暂时不涉及)。

第一章音视频基础概念

本章介绍了声音、图像、视频的相关概念。笔者在书本的基础上，研究了一些自己读书时好奇的问题，并且记录在这篇文章中。

声音的物理性质

声波的三要素：频率、振幅和波形。频率代表音阶的高低，振幅代表响度，波形代表音色。

频率越高，波长就越短。低频声响的波长则较长，所以其可以更容易地绕过障碍物，因此能量衰减就小，声音就会传得远。人的听力有一个频率范围，大约是20Hz~20kHz。

响度是能量大小的反应。

波的形状决定了其所代表的音色。

数字音频

将模拟信号数字化，要经过3个步骤，采样，量化和编码。

采样

采样：在时间轴上对信号进行数字化。对应着声音的频率。

根据奈奎斯特定理，按比声音最高频率高2倍以上的频率对声音进行采样，经过数字化处理之后，人耳听到的声音质量不会被降低。所以采样频率一般为44.1kHz。

量化

量化：在幅度轴上对信号进行数字化。对应着声音的振幅。

比如，每个采样用16比特的二进制信号来表示，则范围是[-32768, 32767]。

采样和量化，能勾画出波的形状，即音色。声波的三要素就转化完成了。

编码

编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储，等等。

音频的裸数据格式，脉冲编码调制，英文叫PCM(Pulse Code Modulation)。

描述一段PCM数据一般需要以下几个概念：量化格式(sampleFormat)、采样率(sampleRate)、声道数(channel)。

量化格式和采样率上面提到过了，声道数是指支持能不同发声的音响的个数。不难理解，立体声道的声道数默认为2个声道。

数据比特率，即1秒时间内的比特数目。

以CD的音质为例，量化格式（位深度）为16比特，采样率为44100，声道数为2。

比特率 44100 * 16 * 2 = 1378.123kbps

一分钟这类数据的存储空间 1378.125 * 60 / 8 / 1024 = 10.09MB

音频的压缩

压缩编码的原理实际上是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等。人耳听觉范围之外的音频上面提到过。被掩蔽掉的音频信号则主要是因为人耳的掩蔽效应，主要表现为频域掩蔽效应与时域掩蔽效应。

书上没有介绍掩蔽效应，估计对于应用层的开发人员来说，不用理解也可以。但笔者还是查阅了一番，感叹一句，人类真奇妙。

这里引用了百度百科的资料，不感兴趣的可以直接略过。

频域掩蔽效应

一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽(simultaneous masking)。如，一个声强为60dB、频率为1000Hz的纯音，另外还有一个1100Hz的纯音，前者比后者高18dB，在这种情况下我们的耳朵就只能听到那个1000Hz的强音。如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz的纯音，那么我们的耳朵将会同时听到这两个声音。要想让2000Hz的纯音也听不到，则需要把它降到比1000Hz的纯音低45dB。一般来说，弱纯音离强纯音越近就越容易被掩蔽；低频纯音可以有效地掩蔽高频纯音，但高频纯音对低频纯音的掩蔽作用则不明显。

由于声音频率与掩蔽曲线不是线性关系，为从感知上来统一度量声音频率，引入了“临界频带(criticalband)”的概念。通常认为，在20Hz到16kHz范围内有24个临界频带。

时域掩蔽效应

除了同时发出的声音之间有掩蔽现象之外，在时间上相邻的声音之间也有掩蔽现象，并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking)，如图12-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说，超前掩蔽很短，只有大约5～20ms，而滞后掩蔽可以持续50～200ms。这个区别也是很容易理解的。

下面介绍几种常用的压缩编码格式。简单看一下就行。

WAV 编码

WAV 编码的一种实现就是在PCM 数据格式的前面加上44字节，分别用来描述PCM 的采样率、声道数、数据格式等信息。

特点：音质非常好，大量软件都支持。

适用场合：多媒体开发的中间文件、保存音乐和音效素材。

MP3 编码

MP3，使用LAME 编码的中高码率的MP3文件，听感上非常接近源WAV文件。

特点：音质在128Kbit/s以上表现还不错，压缩比比较高，大量软件和硬件都支持，兼容性好。

适用场合：高比特率下对兼容性有要求的音乐欣赏。

AAC 编码

特点：在小于128Kbit/s 的码率下表现优异，并且多用于视频中的音频编码。

适用场合：128Kbit/s 以下的音频编码，多用于视频中音频轨的编码。

Ogg 编码

特点：可以用比MP3更小的码率实现比MP3更好的音质，高中低码率下均有良好的表现，兼容性不够好，流媒体特性不支持。

适用场合：语音聊天的音频消息场景。

关于音频的概念，书上就介绍到以上。但笔者还有困惑，一段音频，播放器是怎么知道它的采样率、声道数、数据格式呢？

WAV文件的组成

于是笔者查阅到这篇文章WAV 文件格式。简单点说，就是头部的某一段，被定义下来代表的含义。所以编解码就按照约定的意义执行。

至于其他编码格式，文件格式是怎么样的，就请读者有需要的时候再查阅了。

图像的物理现象

红绿蓝三种光无法被分解，故称为三原色光。

假设一部手机屏幕的分辨率是 1280 * 720，说明有1280列，720行，所以整个手机屏幕就有1280 * 720 个像素点。每个像素点由三个子像素点组成。这三个像素点分别为红、绿、蓝，共同作用下形成一种颜色。

图像的数值表示

RGB 表示方式

浮点表示：取值范围为 0.0 ~ 1.0，比如，在OpenGL ES中对每一个子像素点的表示使用的就是这种表达方式。
整数表示：取值范围为 0 ~ 255 或者 00 ~ FF，8个比特表示一个子像素，32个比特表示一个像素，这就是类似于某些平台上表示图像格式的 RGBA_8888 数据格式。比如， Android 平台上 RGB_565 的表示方法为16比特模式表示一个像素， R 用5个比特来表示， G 用 6个比特来表示， B 用5个比特来表示。