【FFmpeg】H.264 格式分析 ① ( H.264 压缩格式简介 | 流媒体解码流程 | H.264 编码原理 | 帧内压缩 | 帧间压缩 | H.264 编码结构 | IDR 图像帧 )

最新推荐文章于 2025-05-04 08:00:00 发布

韩曙亮

最新推荐文章于 2025-05-04 08:00:00 发布

阅读量6.8k

点赞数 48

分类专栏： FFmpeg 文章标签： ffmpeg h.264 音视频帧内压缩帧间压缩 IDR帧 H.264编码结构

本文链接：https://blog.csdn.net/shulianghan/article/details/144811034

版权

FFmpeg 专栏收录该内容

80 篇文章

订阅专栏

一、H.264 压缩格式简介

1、流媒体解码流程

流媒体解码流程 :

协议层 : 数据通过 HTTP / RTMP / RTSP / 文件系统协议进行存储和传输 , 将这些数据传入 FFmpeg 解复用器中 ;
封装格式层 : 解复用器将 FLV / MP4 / MKV 等格式解复用 , 通过解封装操作得到音频流和视频流 ;
编解码层 : AAC / MP3 格式的音频数据解码为 PCM 音频采样 , H264 / H265 / MPEG4 格式的视频数据解码为 YUV 或 RGB 原始图像画面 ;
媒体播放 : PCM 格式的音频送入扬声器 / 耳机等播放设备中进行播放 , YUV / RGB 格式的图像数据送入到屏幕设备中播放 ;

完整流程如下图所示 :
在这里插入图片描述

其中涉及到视频数据解码 , 目前最流行的视频压缩格式就是 H.264 压缩格式 , 下面针对该压缩格式进行解析 ;

2、H.264 压缩格式制定

H.264 又称为 Advanced Video Coding ( AVC ) , 是由

ITU-T 视频编码专家组 ( VCEG )
ISO/IEC 动态图像专家组 ( MPEG )

联合开发的一种高效视频压缩标准 , 被广泛应用于流媒体传输、存储和实时通信等领域 ;

3、H.264 压缩格式特点

H.264 视频压缩格式有如下特点 :

高压缩效率 : H.264 相较于早期的 MPEG-2 标准 , 在同等视频质量下可以将码率降低 50% 以上 , 可以在有限的带宽和存储空间中提供了更高的视觉效果 ;
灵活的网络适应性 : H.264 支持多种传输协议和应用场景 , 如 IPTV、视频会议、流媒体、广播和存储等 ;
多样化的应用场景 : 支持从低码率到高码率的各种应用场景。
高级技术支持 : 包括帧内预测、帧间预测、CABAC 熵编码、可变块大小运动补偿等多项先进的压缩技术。

4、H.264 压缩格式涉及的主要技术

H.264 压缩格式涉及的主要技术 :

帧内预测 ( Intra Prediction ) : 基于当前帧像素的相邻区域 , 进行空间域内的预测 , 提高静态场景的编码效率 ;
帧间预测 ( Inter Prediction ) : 基于视频帧之间的时间相关性 , 使用运动估计和补偿来减少冗余信息 ;
熵编码 ( Entropy Coding ) : 使用 CABAC 或 CAVLC 技术 , 提高压缩率 ;
- CABAC : CABAC 是一种基于上下文自适应的二进制算术编码方法 , 通过逐位处理数据 , 实现更高的压缩效率 ; 更高的压缩率 , 但计算复杂度较高 , 适合对压缩效率要求高的场景 , 如 : 蓝光光盘或高码率视频 ;
- CAVLC : CAVLC 是一种基于上下文的自适应变长编码方法 , 通过变长码表对数据进行编码 ; 压缩率稍逊于 CABAC , 但复杂度低 , 适合实时编码或资源有限的场景 , 如 : 流媒体或硬件限制设备 ;
多参考帧 ( Multiple Reference Frames ) : 支持使用多个参考帧 , 增加编码灵活性和效率 ;
可变块大小 ( Variable Block Sizes ) : 支持不同大小的编码块 , 如 : 16x16、8x8 , 优化运动补偿 ;

二、H.264 编码解析

1、原始视频数据大小

视频的原始数据占用的存储空间极大 , 1 分钟的 1920x1080 的 30 FPS 的视频 , 每个像素点使用 RGB 三个字节 , 其占用的存储空间为 :

1920 * 1080 * 3 * 60 * 30 = 11,197,440,000 Byte = 10,935,000 KB = 10,678.71 MB = 10.43 GB

1 分钟的原始视频需要 10GB 的存储空间 , 如果是 3 小时的电影 , 则需要 1.8 TB 的存储空间 , 因此原始的视频格式是无法进行存储的 , 必须进行视频压缩 ;

当前最常用的视频压缩编码格式就是 H.264 格式 ;

2、H.264 编码原理

视频文件由一系列图像帧组成 , 每秒的帧数称为帧率 FPS , 如 : 每秒包含 30 帧 , 帧率为 30 FPS ;

① 空间冗余 - 帧内压缩 ( Intra-frame Compression )

帧内压缩用于消除图像的空间冗余 , 一张图像帧内部的元素具有较高的相似性 , 视频帧被划分为 16×16 的宏块 ;

通过相似性比较和压缩编码来减少数据冗余 , 每个 16×16 的宏块可以根据其相邻像素块的信息 , 通过不同的预测模式 , 如 : 水平、垂直、对角线等 , 生成预测值 , 然后仅对预测值与实际值之间的差异进行编码 ;

这种方法通过减少空间上的冗余信息 , 实现帧内的高效压缩 ;

② 时间冗余 - 帧间压缩 ( Inter-frame Compression )

帧内压缩用于消除多张图像帧之间的时间冗余 , 利用相邻帧之间的相似性进行压缩 ;

帧间压缩常用如下两种方法实现 :

运动估计 ( Motion Estimation ) : 在当前帧中查找与前后参考帧对应区域最相似的块 , 并记录偏移量 , 该偏移量称为 " 运动矢量 " ;
运动补偿 ( Motion Compensation ) : 使用运动矢量重建当前帧的预测值 , 仅对预测值与实际值之间的差异进行编码 ;

H.264 编码允许多个参考帧、可变块大小 , 进一步提高了帧间压缩效率 ;

3、帧间压缩

H.264 视频压缩编码的消除时间冗余的帧间压缩 , 采用了 I 帧 / P 帧 / B 帧策略实现了连续帧之间的压缩 ;

I 帧 : 帧内编码帧 ( Intra Picture ) 是每个 GOP 画面组的起始帧 , 经过适度压缩后，作为随机访问的参考点 , 可视为一张独立的图像 ; I 帧的编码结果相当于一张压缩后的图像 , 其自身包含完整的信息 , 无需依赖其他帧 , 通过视频解压算法即可还原为一幅完整的画面 ;
P 帧 : 前向预测编码帧 ( Predictive-Frame ) , 依赖前面已经编码的视频帧的时间冗余信息进行压缩传输的帧 , 又称为 " 预测帧 " ;
B 帧 : 双向预测帧 ( Bi-directional Predicted Frames ) , 依赖该帧前后的 I 帧或 P 帧进行编码 , 存储的是与前后帧之间的差异 ;
压缩率排序 : B 帧 > P 帧 > I 帧 ;

① B 帧不能作为参考帧

在 I 帧 / P 帧 / B 帧中 , B 帧的压缩率是最高的 , 占用空间最小 , 画面质量最低 ; 但是 B 帧不能用作参考帧 ;

避免循环依赖 : B 帧的预测基于之前的帧和之后的帧 , 本身依赖于其他帧 ; 如果将 B 帧用作参考帧 , 那么它的后续帧解码将形成循环依赖 , 如 : B 帧解码依赖前后帧 , 而后帧又可能依赖于这个 B 帧 , 这样就增加了解码器处理的复杂度 ;

空间优化角度考虑 : B 帧的设计目的是为了提高压缩效率 , 如果允许 B 帧作为参考帧 , 需要额外存储其解码结果 , 增加了解码器的内存需求 ;

拉低画质 : B 帧压缩效率高 , 但是画面质量低 , 参考低质量画面解码的帧会拉低视频画质 , 编码器也会尽量避免参考 B 帧 ;

在这里插入图片描述

② I 帧 / P 帧 / B 帧参考资料

4、H.264 编码结构

H.264 编码格式提供了视频编码和分片策略 , 编码按照层级大小 , 分为五层编码结构 , 从大到小逐层组织 :

序列 ( GOP ) : 画面组 , 视频流的基本组织单位 , 控制帧之间的编码与依赖关系 ;
图像 ( Picture ) : 单个图像帧 , 由多个片组成 , 代表视频中的一帧图像 ;
片 ( Slice ) : 图像的更小单位 , 便于并行解码和更高容错性 , 每片由一组宏块组成 ;
宏块 ( Macroblock ) : 编码过程中的基本处理单位 , 包含压缩信息 , 通常为 16×16 像素大小 , 由多个 4×4 的子块组成 ;
子块 ( Subblock ) : 宏块的细分单位，通常为 4×4 或更小尺寸的块 , 用于更精细的编码处理 , 提升压缩效率 ;

H.264 的这种层次化结构使得在视频编码中具备了高效的压缩能力和良好的灵活性 ;

在这里插入图片描述

① 序列 ( GOP , Group of Pictures )

序列是视频流中的基本单位 , 通常由一系列相邻的视频帧组成 , 又称为 GOP 画面组 ( Group of Pictures ) ;

每个 GOP 包含多种类型的帧 , 包括

I 帧 , 关键帧
P 帧 , 前向预测帧
B 帧 , 双向预测帧

I 帧提供了独立的解码参考 , 而 P 帧和 B 帧则依赖于其他帧进行预测 ;

序列作用 : GOP 中定义了帧之间的依赖关系和编码方式 , 是解码器解码视频的最基本单元 ;

② 图像 ( Picture )

图像是指视频中的一帧图像 , 它包含完整的图像数据 , I 帧、P 帧和 B 帧都是图像 ;

每个图像由多个片 Slice 组成 ;

图像作用 : 图像是一个较大的编码单位 , 其内的片可以独立解码 , 该层次的结构帮助视频数据在传输和解码过程中更具灵活性 ;

③ 片 ( Slice )

片是图像中的子单位 , 每个片由一组宏块组成 ;

片根据划分策略 , 片可以分为不同类型 :

行片 ( Row Slice ) : 将图像帧按行划分为多个片的方式 , 每个片通常包含一行连续的宏块行 ;
单片 ( Single Slice ) : 将整个图像帧作为一个片进行编码 , 不再划分为多个子区域 ;

独立解码 : 片是 H.264 中支持并行解码的最小单元 , 可以使得不同的片在解码时彼此独立 , 从而加速视频的解码过程 , 尤其是在网络丢包或数据错误的情况下 , 每个片可以独立解码 , 不影响其他片 ;

④ 宏块 ( Macroblock )

宏块是 H.264 编码中的最基本处理单元 , 通常为 16×16 像素大小 ;

一个宏块由多个 4×4 的子块组成 ;

每个宏块包含亮度 Y 和色度 U、V 信息 ;

宏块是视频压缩过程中最重要的单元之一 , 每个宏块可以通过预测、变换、量化等步骤进行压缩 ;

宏块内的数据包括

帧内预测 ( I 帧 ) 编码信息
帧间预测 ( P 帧、B 帧 ) 编码信息

⑤ 子块 ( Subblock )

子块是宏块内的更小单元 , 通常为 4×4 或更小尺寸的块 ; 每个宏块可以进一步被分解成多个子块 , 在进行变换和量化时采用不同的算法 ;

子块用于更精细的压缩处理 , 如 : 通过细粒度的运动估计来优化视频的压缩效率 ;

子块使得 H.264 编码能够更好地利用视频帧中的细节 , 减少压缩损失 ;

5、IDR 图像帧

IDR 图像帧 ( Instantaneous Decoder Refresh , 即时解码刷新帧 ) 是 H.264 编码中一种特殊类型的 I 帧 ( Intra-coded Frame ) ;

IDR 帧都是 I 帧 , 但是 I 帧不一定是 IDR 帧 , 二者都包含完整的图像信息 , 可以独立解码而无需依赖其他帧 ;

① IDR 帧与 I 帧区别

特性	IDR 帧	普通 I 帧
独立解码	是	是
参考帧刷新	清空参考帧缓存	不清空，可能依赖之前的参考帧
随机访问点	是	否
解码后帧依赖	后续帧仅参考当前 GOP 内的帧	后续帧可能参考之前 GOP 的帧