【音视频开发】音视频图像开发基础 I - 音频录制播放原理及相关概念、图像的表示、视频压缩算法

干吃咖啡豆

已于 2023-06-10 15:43:12 修改

阅读量506

点赞数

分类专栏： # FFmpeg 文章标签：音视频 ffmpeg 笔记

于 2023-05-04 13:36:45 首次发布

本文链接：https://blog.csdn.net/weixin_42839065/article/details/130484465

版权

10 篇文章 2 订阅

订阅专栏

文章介绍了音视频的录制和播放原理，包括音频通过麦克风采集，视频由摄像头捕获，然后经过编码和复用输出。图像表示部分讨论了RGB和YUV格式，以及它们的特点。视频概念中讲解了视频的码率、帧率和分辨率，以及I帧、P帧和B帧在视频编码中的作用。最后提到了常见的视频压缩算法。

摘要由CSDN通过智能技术生成

1 音视频录制播放原理

若想记录生活中的影像又或声音，我们需要借助摄像头和麦克风两个输入源来实现对音视频的采集，而其内部工作原理也有章可循。

如图：

麦克风通过时钟控制频率去采帧，经过特定的音频处理后放入帧队列，然后对音频进行编码，最后通过复用器输出对声音记录的文件。

同理，摄像头经过采样图像帧和视频编码，最终通过复用器输出对图像的连续记录文件。

播放媒体文件，我们则需要用到解复用器，通过对音视频的包进行相应的解码（视频解码、音频解码），将包转化为帧，通过同步控制对图像音频进行处理，最终呈现在机器荧幕上。

我们应当知道，我们平时看到的“颜色”是由“三原色”构成，而三原色指的是红、绿、蓝这三种颜色。因此在计算机中我们也采用这个概念，设计了R(Red)、G(Green)、B(Blue)三个键值组合起来指示一种具体的颜色。

值得注意的是，这每个键值的位宽是8bit，因此单一键值可以有 $2^8=256$ 种组合方式，那么三种键值所能构成的指定颜色则有 $256*256*256=16,777,216$ 。

YUV格式一开始广泛应用于黑白电视上，它被设计的目的主要用于视频信号的压缩、传输和存储，其中“Y”表示的是明亮度(Luminance or Luma)，又称灰阶值，而“U”和“V”则表示的是色度（Chrominance or Chroma）

YUV组合在一起的意义是用来描述影响的色彩和饱和度，用以指定像素的颜色。

YUV的格式有两类，分别是 平面 Planar 和紧凑Packed

对于 Planar - 先连续存储所有像素点的Y，紧接着存储所有像素点的U。

对于 Packed - 每个像素点的Y,U,V连续存储在内存中。

Packed的优点相较于Planar主要是更节省内存空间。

而Planar的优势也显而易见：

可以并行访问像素数据。在内存带宽不足的时候，Planar就明显优于Packed了。如YUV，如果采用Planar，相比于Packed，可以并行访问Y、U、V三个平面，那就相当于只花1/3的时间，就可以访问到一个YUV像素。
Planar在切换bit depth时，更加快：可以通过增加或丢弃平面，来快速扩增或缩减调色板。比如，4个平面变成5个平面时，一个像素的可选颜色，变成了 $2^5=32$ 种。
当代表像素的bit数，不是2的次幂的时候，Planar在空间和时间上的效率，都高于Packed。比如，在3-bit的RGB中（每3个bit表示一个像素，一个像素可选颜色为种）。
- 如果采用Planar，只需要3个平面。
- 如果采用Packed，有两种实现方式：
  - 允许像素跨字节边界：提高了内存寻址和unpack像素的复杂度，导致耗时增加。
  - 采用padding：每个字节只存储两个像素，耗费6个bit，保留两个2bit不使用，导致空间消耗增大。RGB555就是这种做法。