😎 作者介绍:欢迎来到我的主页👈,我是程序员行者孙,一个热爱分享技术的制能工人。计算机本硕,人工制能研究生。公众号:AI Sun(领取大厂面经等资料),欢迎加我的微信交流:sssun902
🎈 本文专栏:本文收录于《FFMPEG》系列专栏,相信一份耕耘一份收获,我会分享FFMPEG相关学习内容,不说废话,祝大家都offer拿到手软
🤓 欢迎大家关注其他专栏,我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。
🖥随时欢迎您跟我沟通,一起交流,一起成长、进步!
1. H264编码基础
1.1 H264标准概述
H.264,也称为MPEG-4 AVC(Advanced Video Coding),是一个由ISO/IEC和ITU-T联合开发的高效视频编码标准。它旨在提供比以往标准更高的压缩效率,同时保证视频质量。H.264标准广泛应用于高清视频、视频会议、流媒体服务等多个领域。
H.264的核心优势在于其高度压缩能力,能够在较低的比特率下实现高质量的视频传输。这一优势使得H.264成为互联网视频流和移动视频通信的首选编码格式。
关键特性
- 高压缩率:H.264能够在保持高质量视频输出的同时显著降低文件大小。
- 灵活性:支持多种分辨率和帧率,适应不同的网络和设备条件。
- 容错性:即使在网络条件不佳的情况下也能保持较好的视频质量。
- 网络适应性:设计时考虑了不同网络环境,易于在IP网络等环境中传输。
应用场景
- 高清视频广播:如数字电视和卫星电视服务。
- 视频点播服务:在线视频平台,如YouTube和Netflix。
- 视频会议:提供高质量的视频通信。
- 移动视频:在移动设备上的视频播放和录制。
1.2 视频编码的必要性与本质
视频编码的必要性主要源于视频数据的庞大体积。未经压缩的视频数据,尤其是高清视频,会占用极大的存储空间和传输带宽。例如,一个720P分辨率、30fps的视频,其原始数据传输速率可达到632.8125 Mbps。这不仅对存储设备提出了高要求,也对网络传输带宽构成了巨大挑战。
编码的本质
视频编码的本质是去除视频中的冗余信息,包括但不限于:
- 空间冗余:同一帧内相邻像素间的相似性。
- 时间冗余:连续帧之间的相似性。
- 视觉冗余:人眼对某些细节不敏感,可以适度降低这些部分的质量。
通过有效的编码技术,可以显著减少视频数据量,同时在视觉感知上保持可接受的质量水平。这不仅降低了存储和传输成本,也使得视频内容能够更广泛地分发和访问。
编码技术
H.264采用了一系列先进的编码技术来实现高效的数据压缩,包括:
- 帧内预测:利用图像内部的空间相关性进行压缩。
- 帧间预测:利用视频序列中时间上的相关性,通过运动估计和补偿来减少冗余。
- 整数变换和量化:通过变换和量化步骤去除空间和感知上的冗余。
- 熵编码:应用概率模型对数据进行编码,进一步压缩数据。
这些技术的综合应用使得H.264能够在保持高质量视频输出的同时,实现高效率的数据压缩。
2. NALU概念与结构
2.1 NALU定义与功能
NALU,全称为Network Abstraction Layer Unit,即网络抽象层单元,是H.264视频编码标准中的基本编码和传输单元。NALU的设计目的是为了将视频编码数据以一种适合网络传输的方式进行封装,确保视频数据能够在不同的网络环境中高效、可靠地传输。
NALU的主要功能包括:
- 数据封装:将视频编码后的数据封装成独立的单元,每个单元可以独立传输和解码。
- 错误隔离:通过将数据分割成多个NALU,即使某个NALU在传输过程中出错,也不会影响其他NALU的解码。
- 优先级标识:通过NALU头部的重要度标识(nal_ref_idc),可以指导解码器在资源有限的情况下优先处理重要数据。
- 类型区分:NALU类型(nal_unit_type)标识了单元的具体类型,如I帧、P帧、B帧、参数集等,以支持解码器正确解析和处理。
2.2 NALU的组成元素
一个NALU由以下几个关键部分组成:
-
起始码(Start Code):用于标识NALU的开始,可以是3字节(
00 00 01
)或4字节(00 00 00 01
)的形式。 -
NALU头部:一个字节,包含以下信息:
- 禁止位(forbidden_zero_bit):固定为0,用于禁止使用。
- 重要性指示(nal_ref_idc):2位,标识NALU的重要性,0表示非参考帧,1-3表示参考帧。
- NALU类型(nal_unit_type):5位,定义了NALU的具体类型,如5表示IDR图像的编码条带。
-
RBSP(Raw Byte Sequence Payload):原始字节序列载荷,是NALU的实际有效载荷,包含了编码后的视频数据或参数集信息。
- SODB(String Of Data Bits):最原始的编码数据比特流。
- RBSP尾部比特:在SODB后添加的一个比特“1”和若干比特“0”,用于字节对齐。
-
EBSP(Encapsulated Byte Sequence Payload):扩展字节序列载荷,是RBSP的扩展,用于防止与起始码的竞争,通过在RBSP中插入特定的字节(0x03)来实现。
NALU的结构设计使得H.264编码的数据不仅能够有效地表示视频内容,还能够适应各种网络环境,实现高效的传输和解码。
3. NALU类型与应用
3.1 NALU类型详解
NALU(Network Abstraction Layer Unit)是H.264视频编码标准中的基本数据单位,用于封装编码后的视频数据以适应不同的网络环境。NALU的类型多样,每种类型承担着不同的功能和角色。
- 类型1:非IDR图像编码的slice,包括常见的I帧、P帧和B帧。
- 类型5:IDR图像中的编码slice,IDR帧是关键帧,用于随机访问和解码器的初始化。
- 类型6:SEI(Supplemental Enhancement Information),用于携带非必要的补充信息,如视频帧的定时信息。
- 类型7:SPS(Sequence Parameter Set),序列参数集,描述整个视频序列的参数。
- 类型8:PPS(Picture Parameter Set),图像参数集,描述单个图像或一组图像的参数。
- 类型9:单元定界符,用于界定视频帧的边界。
除了上述常见类型,还有其他用于特定功能的NALU类型,如填充数据(类型12)、序列结束(类型10)等。
3.2 NALU在视频编码中的作用
NALU在H.264视频编码中扮演着至关重要的角色,它们不仅携带视频数据,还提供必要的元信息以支持视频的解码和传输。
- 数据封装:视频帧经过编码后被分割成多个NALU,每个NALU包含视频帧的一部分数据,通过这种方式,视频数据被有效封装,适应网络传输的需求。
- 错误恢复:由于NALU的独立性,即使在网络传输中部分NALU丢失,也不会影响其他NALU的解码,提高了视频流的鲁棒性。
- 随机访问:IDR帧作为关键帧,提供了视频流的随机访问点,允许解码器快速定位到视频流的特定位置。
- 参数集传输:SPS和PPS作为NALU的一部分,携带了解码器所需的序列和图像参数,确保解码器能够正确地解码视频内容。
- 补充信息:SEI NALU允许编码器向视频流中添加额外的元数据,如时间戳、画面质量等,这些信息可以用于改善视频的播放体验或进行视频分析。
NALU的设计使得H.264视频编码具有高度的灵活性和适应性,能够满足不同网络环境和应用场景的需求。
4. NALU的编码与解码流程
4.1 编码过程中的NALU处理
在H.264视频编码过程中,NALU(Network Abstraction Layer Unit)扮演着至关重要的角色。它负责将编码后的视频数据进行封装,以适应不同的网络环境和存储介质。以下是编码过程中NALU处理的关键步骤:
- 数据分块:视频帧首先被划分为多个宏块(Macroblock),每个宏块包含16x16像素的亮度信息和相应的色度信息。
- 帧类型定义:根据帧的预测方式,视频帧被定义为I帧(内预测帧)、P帧(前向预测帧)或B帧(双向预测帧)。
- 编码参数集:编码器生成序列参数集(SPS)和图像参数集(PPS),这些参数集包含了解码器所需的全局和图像特定的编码参数。
- NALU头信息:每个NALU单元开始前都有一个NALU头,包含了如NALU类型、重要性指示位等信息。
- RBSP形成:原始字节序列载荷(RBSP)由编码后的视频数据组成,它将被封装进NALU中。
- 起始码添加:为了标识NALU单元的开始,编码器在每个NALU前添加特定的起始码,如
00 00 00 01
或00 00 01
。
4.2 解码过程中的NALU重构
解码过程中,NALU的重构是解码器正确解码视频数据的前提。以下是解码过程中NALU重构的关键步骤:
- 起始码检测:解码器首先检测NALU的起始码,以确定NALU单元的边界。
- NALU头解析:解码器解析NALU头部信息,获取NALU类型和重要性等关键信息。
- RBSP处理:解码器去除RBSP尾部的填充比特,还原出原始的编码数据。
- 参数集解析:对于SPS和PPS类型的NALU,解码器解析参数集信息,为后续的解码过程做准备。
- 帧重建:根据NALU中的编码数据和参数集信息,解码器重建图像帧,包括I帧、P帧和B帧。
- 错误恢复:如果解码过程中发现错误,解码器利用NALU的重要性指示位和错误恢复机制,尝试恢复丢失或损坏的数据。
在实际应用中,NALU的编码与解码流程对于视频的质量和传输效率至关重要。通过优化NALU的处理,可以有效提高视频压缩效率,降低带宽需求,同时保证视频质量。
5. NALU在流媒体中的应用
5.1 流媒体传输中的NALU封装
在流媒体传输中,H.264编码后的数据以NALU(Network Abstraction Layer Unit)作为基本的传输单元。NALU封装是视频数据传输的关键步骤,它使得视频流能够在不同的网络环境中高效、稳定地传输。
NALU的结构包括起始码(Start Code),NALU头部(NALU Header),以及原始字节序列载荷(RBSP)。起始码用于标识NALU的开始,通常为4字节的00 00 00 01
或3字节的00 00 01
。NALU头部包含了重要的信息,如NALU类型、优先级等,这些信息对于解码器正确解析视频数据至关重要。
在流媒体协议中,如HLS(HTTP Live Streaming)、MPEG-DASH等,NALU被进一步封装以适应特定的传输需求。例如,在HLS中,视频数据被切分为多个较小的TS(Transport Stream)片段,每个片段包含一系列的NALU单元,以及必要的索引信息,以支持流媒体的实时播放和随机访问。
5.2 NALU与RTP/RTCP协议的交互
RTP(Real-time Transport Protocol)是一种网络传输协议,用于通过IP网络传输实时数据,如音频和视频。RTCP(Real-time Transport Control Protocol)则是RTP的配套协议,用于监控RTP数据传输的质量,并提供传输质量反馈。
在RTP/RTCP协议框架下,NALU单元被封装在RTP数据包中进行传输。RTP头部包含了用于识别NALU单元的字段,如序列号、时间戳等,这些信息对于接收端重构视频流和同步播放至关重要。
NALU单元在RTP数据包中的封装方式有多种,包括单一NALU模式、组合封包模式和分片封包模式。单一NALU模式适用于较小的NALU单元,直接将NALU单元作为RTP负载。组合封包模式(如STAP-A)允许在一个RTP数据包中携带多个NALU单元,适用于NALU单元较小且数量较多的情况。分片封包模式(如FU-A)则用于处理较大的NALU单元,将其分割成多个RTP数据包进行传输。
RTCP协议则通过发送接收质量报告(如RR和SR报文),帮助发送端了解传输质量,并根据反馈进行相应的调整,如调整比特率、重传丢失的数据包等,以确保流媒体传输的稳定性和流畅性。通过这种方式,RTP/RTCP协议与NALU单元的封装和传输紧密协作,共同保障了流媒体服务的高效和可靠性。
6. NALU的高级特性与优化
6.1 NALU的并行处理与多线程编码
在H.264视频编码标准中,NALU(Network Abstraction Layer Unit)作为数据传输的基本单元,其设计允许高效的并行处理和多线程编码,这对于提升编码效率和适应多核处理器架构至关重要。
-
并行处理机制:H.264通过将视频帧分割为多个Slice,每个Slice可以独立编码,互不依赖。这种设计允许编码器同时处理多个Slice,从而实现并行编码。例如,在高分辨率视频或实时编码场景中,利用多核处理器的计算能力,可以显著缩短编码时间。
-
多线程编码应用:现代编码器如x264支持帧级并行和片级并行两种多线程编码模式。帧级并行是同时对多帧视频进行编码,而片级并行则是将单帧视频分割为多个Slice,每个Slice由不同的线程并行处理。通过合理配置线程数,可以平衡计算资源的利用和编码效率。
-
编码效率与质量:尽管并行处理可以提高编码速度,但也可能引入一些额外的编码开销,如线程间的同步和通信。此外,多Slice编码可能会略微降低编码效率,因为每个Slice的编码需要独立处理,无法充分利用帧内的空间相关性。
-
实际应用案例:在实际应用中,如视频会议或直播场景,编码器可以根据可用的处理器核心数和所需的编码质量,动态调整并行处理策略。例如,x264编码器允许用户设置
i_threads
参数来控制并行线程的数量,以及b_sliced_threads
参数来选择是否使用片级并行。
6.2 NALU的码率控制与优化策略
码率控制是视频编码中的一个重要环节,它决定了视频的质量和传输带宽的利用效率。H.264标准提供了多种码率控制工具和策略,以适应不同的网络条件和应用需求。
-
码率控制模式:H.264支持CBR(恒定比特率)、VBR(可变比特率)和CVBR(约束可变比特率)等多种码率控制模式。CBR模式保证视频流的码率恒定,适用于网络带宽稳定的环境;VBR模式允许码率根据视频内容的复杂度动态调整,以保持图像质量;CVBR模式则在VBR的基础上增加了最大码率的限制,以适应带宽受限的环境。
-
量化参数调整:码率控制器通过调整量化参数(QP)来控制码率。较低的QP值可以提供更高的图像质量,但会增加码率;较高的QP值则会降低码率,但可能会牺牲图像质量。编码器需要根据目标码率和视频内容,动态调整QP值。
-
场景检测与码率调整:高级编码器通常具备场景检测功能,能够识别视频中的运动场景和静止场景,并根据场景变化调整码率。例如,在运动剧烈的场景中,可能需要增加码率以保持图像质量;而在静止场景中,则可以降低码率以节省带宽。
-
码率控制算法:H.264编码器采用复杂的算法来实现码率控制,包括但不限于率失真优化(RDO)、模式决策、运动估计和量化。这些算法的目标是在给定的码率约束下,最大化视频质量。
-
实际应用中的优化:在实际应用中,编码器的配置和码率控制策略需要根据具体的应用场景和网络环境进行优化。例如,对于网络直播应用,可能需要优先保证视频的流畅性,通过适当降低码率和采用CBR模式来减少卡顿;而对于视频点播服务,则可以采用VBR模式,以提供更高的图像质量。
7. 实际案例分析
7.1 NALU在不同场景下的应用示例
NALU(Network Abstraction Layer Unit)是H.264视频编码标准中的核心概念,负责将编码后的视频数据进行封装以适应不同的网络传输环境。以下是NALU在几个不同场景下的应用示例:
7.1.1 视频流媒体服务
在视频流媒体服务中,如Netflix或YouTube,NALU的使用至关重要。视频内容首先被编码成H.264格式,然后通过NALU进行封装。封装后的NALU单元通过RTP(Real-time Transport Protocol)等协议传输,确保视频数据的实时传输和高效解码。NALU的使用提高了视频流的适应性,使其能够在不同带宽和网络条件下稳定播放。
7.1.2 视频监控系统
视频监控系统中,NALU同样发挥着重要作用。监控摄像头捕获的视频流经过H.264编码后,通过NALU封装成适合网络传输的单元。这样,即使是在带宽受限的环境中,也能够实现高效传输,同时保证了视频数据的完整性和可解码性。
7.1.3 视频会议
在视频会议应用中,NALU的使用确保了视频数据的高效传输和实时性。视频会议系统通常需要低延迟和高压缩率,H.264编码结合NALU封装满足了这些需求。通过NALU,视频数据可以快速地在参与者之间传输,同时保持了良好的视频质量。
7.1.4 数字电视广播
数字电视广播,如DVB-T或ATSC,也广泛采用H.264编码和NALU封装。这种封装方式使得电视节目可以通过有限的带宽高效传输,同时保持了高质量的视频播放效果。NALU的使用还提高了广播信号的抗误码能力,确保了信号的稳定接收。
7.1.5 移动视频传输
随着移动设备的普及,移动视频传输变得越来越重要。在移动网络环境下,带宽和网络条件可能变化较大。NALU的使用使得H.264编码的视频数据能够适应这种变化,通过调整NALU的大小和编码参数,实现在不同网络环境下的优化传输。
7.1.6 视频编辑和后期处理
在视频编辑和后期处理领域,NALU的使用简化了视频数据的编辑和重组过程。编辑软件可以轻松识别和操作NALU单元,进行剪辑、合并等操作,而不需要重新编码整个视频序列。这大大提高了编辑效率,同时保持了视频质量。
通过上述场景的应用示例,我们可以看到NALU在H.264视频编码中的多功能性和灵活性,它是实现高效视频编码和传输的关键技术之一。
7.2 代码实战分析
在C++中解析H.264 NALU的一个简单示例代码如下:
#include <cstdio>
#include <cstdint>
#include <cstdlib>
#include <iostream>
#include <fstream>
const uint32_t kBufferSize = 200000;
struct NALU {
int start_code_len;
uint32_t len;
int forbidden_bit;
int nal_reference_idc;
int nal_unit_type;
char* data;
};
enum NaluType {
// 这里列出了部分NALU类型,具体可以参照H.264标准文档
NALU_TYPE_UNSPECIFIED = 0,
NALU_TYPE_SLICE = 1,
NALU_TYPE_IDR = 5,
NALU_TYPE_SEI = 6,
NALU_TYPE_SPS = 7,
NALU_TYPE_PPS = 8,
// ... 其他类型
};
bool IsStartCode(const char* buffer) {
if (buffer[0] == 0x00 && buffer[1] == 0x00 && buffer[2] == 0x00 && buffer[3] == 0x01) {
return true;
}
if (buffer[0] == 0x00 && buffer[1] == 0x00 && buffer[2] == 0x01) {
return true;
}
return false;
}
int GetNALUData(NALU* nalu, std::ifstream& fin) {
char start_code[4] = {0};
char* buffer = new char[kBufferSize];
fin.read(start_code, 3);
if (fin.gcount() != 3) {
std::cout << "H264 stream error" << std::endl;
delete[] buffer;
return 0;
}
if (!IsStartCode(start_code)) {
fin.read(start_code + 3, 1);
if (!IsStartCode(start_code)) {
std::cout << "not found start code" << std::endl;
delete[] buffer;
return 0;
}
nalu->start_code_len = 4;
} else {
nalu->start_code_len = 3;
}
// ... 省略了部分代码,主要是读取NALU数据并填充到nalu结构中
// 包括定位NALU结束位置,读取数据,解析NALU头部信息等
// ...
delete[] buffer;
return nalu->len; // 返回NALU数据长度
}
void ParseH264Stream(const std::string& filename) {
std::ifstream fin(filename, std::ios::binary | std::ios::in);
if (!fin) {
std::cout << "open file failed" << std::endl;
return;
}
NALU nalu;
nalu.data = new char[kBufferSize];
int data_offset = 0;
int nal_num = 0;
while (!fin.eof()) {
int len = GetNALUData(&nalu, fin);
if (len < 1) {
std::cout << "get NALU data error" << std::endl;
break;
}
// 打印NALU信息,例如NALU类型等
std::cout << "NALU #" << nal_num++ << " Type: " << nalu.nal_unit_type
<< " Length: " << len - nalu.start_code_len << std::endl;
data_offset += len;
}
delete[] nalu.data;
fin.close();
}
int main(int argc, char* argv[]) {
if (argc < 2) {
std::cout << "Usage: " << argv[0] << " <h264file>" << std::endl;
return -1;
}
std::string filename = argv[1];
ParseH264Stream(filename);
return 0;
}
上述代码是一个简化的H.264 NALU解析器,它可以打开一个H.264编码的文件,并尝试解析其中的NALU单元。代码中省略了一些实现细节,例如具体读取和解析NALU数据的过程。在实际应用中,还需要根据NALU的类型对数据进行相应的处理。
祝大家学习顺利~
如有任何错误,恳请批评指正~~
以上是我通过各种方式得出的经验和方法,欢迎大家评论区留言讨论呀,如果文章对你们产生了帮助,也欢迎点赞收藏,我会继续努力分享更多干货~
🎈关注我的公众号AI Sun可以获取Chatgpt最新发展报告以及腾讯字节等众多大厂面经。
😎也欢迎大家和我交流,相互学习,提升技术,风里雨里,我在等你~