h264 NAL解析

步基

已于 2024-08-05 19:14:51 修改

阅读量3.5k

点赞数 3

分类专栏：音视频文章标签： h264 NAL

于 2022-01-16 21:59:09 首次发布

本文链接：https://blog.csdn.net/wangbuji/article/details/122528496

版权

音视频专栏收录该内容

49 篇文章

订阅专栏

H.264标准中，视频流是由NAL(Network Abstraction Layer)单元组成的（简称NALU），每个NALU中可能是IDR图像、SPS、PPS、non-IDR图像等。

1 AVCC与Annex-B标准

H.264码流分为AVCC与Annex-B两种组织格式。

AVCC格式也叫AVC1格式，MPEG-4格式，字节对齐，因此也叫Byte-Stream Format。用于mp4/flv/mkv等封装中。
Annex-B格式也叫MPEG-2 transport stream format格式（ts格式）, ElementaryStream格式。用于TS流中（以及使用TS作为切片的hls格式中）。

这两种格式的区别有两点：

（1）NALU的分割方式不同；

（2）SPS/PPS的数据结构不同。

AVCC格式使用NALU长度（固定字节，字节数由extradata中的信息给定）进行分割，在封装文件或者直播流的头部包含extradata信息（非NALU），extradata中包含NALU长度的字节数以及SPS/PPS信息。
Annex-B格式使用start code进行分割，start code为0x000001或0x00000001，SPS/PPS作为一般NALU单元以start code作为分隔符的方式放在文件或者直播流的头部。

AVCC格式的extradata格式定义在“ISO_IEC_14496-15"文档中，Annex-B格式的SPS/PPS定义可以在"ISO_IEC_14496-10"文档中找到。

图 Annex-B格式h264码流

RBSP 的基本结构是:在原始编码数据VCL的后面填加填充比特，以便字节对齐。一个 bit“1”若干比特“0”。

nal二进制示例图

1）0x00 00 00 01起始码，表示该帧图像第一个slice，其余slice是0x00 00 01

2）NALU头为0x67,转换为二进制0110 0111
禁止位为0，若为1，则表示有错误，接收端要丢弃。
NAL重要性为11，即3，表示最重要
NALU类型为[00111],即7，类型为7表示该NALU是SPS

//数据分割时视频传输在易错环境下抗误码的有效途径，使客户端在易错环境下能收到较为重要的视频信息，从而进行有效的错误掩盖，改善播放体验。通常A类信息slice-A + slice-B + slice-C=slice

2:slice A,包含slice header, MB header,量化参数、运动矢量等信息。A 类数据包含了正确解码图像所需的最重要信息。

3:slice B，包含所有Intra宏块的CBP (Coded Block Patter)和DCT。B 类数据包含了次重要的信息。

4:slice C，包含所有Inter宏块的CBP和DCT。C类数据包含的重要性最弱，有时slice的C类数据丢失对重建图像的质量几乎没有影响。但是C类数据却是A、B、C中数据量最大的。

5:IDR中的slice

6:补充增强信息单元SEI

7:sps

8:pps

MediaCodec与VideoToolBox使用的数据格式

Android的硬解码接口MediaCodec只能接收Annex-B格式的H.264数据，而iOS平台的VideoToolBox则相反，只支持AVCC格式。这就导致：

在Android平台硬解播放flv/mp4/mkv等封装的视频时，需要将AVCC格式的extradata以及NALU数据转为Annex-B格式；
在iOS平台播放ts或ts切片的hls视频时，需要将Annex-B格式的SPS/PPS NALU转为AVCC格式的extradata，以及将其他以size方式分割的NALU转为start code方式。

2 slice

视频由frame组成（IDR,I,B,P帧），frame由slice构成，slice由宏块构成。每个NALU可能存放的是VCL音视频数据的slice或非VCL数据（SPS，pps等描述信息）。若slice数据量大于MTU（1500字节），一个NALU单元存放不下，分别封装在多个NALU中。

图 NAL构成

每一个Slice分为Slice header（用于保存Slice的总体信息）和Slice body组成（通常是一组连续的宏块结构或者宏块跳过信息），如下图所示：

SI和SP：即Switch I和Switch P，是一种特殊的编解码条带，可以保证在视频流之间进行有效的切换，并且解码器可以任意的访问。比如，同一个视频源被编码成各种码率的码流，在传输的过程中可以根据网络环境进行实时的切换；

2.1 slice header

first_mb_in_slice: 当前slice中包含的第一个宏块在整帧中的位置；
slice_type：当前slice的类型；

slice_type的值5到9表示除了当前条带的编码类型，所有当前编码图像的其他条带的slice_type的值应与当前条带的slice_type的值一样，或者等于当前条带的slice_type的值减5。对于IDR图像，slice_type的值应为2、4、7或者9。

pic_parameter_set_id：当前slice所依赖的pps的id；范围 0 到 255。
colour_plane_id:当标识位separate_colour_plane_flag为true时，colour_plane_id表示当前的颜色分量，0、1、2分别表示Y、U、V分量。
frame_num:表示当前帧序号的一种计量方式。
field_pic_flag:场编码标识位。当该标识位为1时表示当前slice按照场进行编码；该标识位为0时表示当前slice按照帧进行编码。
bottom_field_flag:底场标识位。该标志位为1表示当前slice是某一帧的底场；为0表示当前slice为某一帧的顶场。
idr_pic_id:表示IDR帧的序号。某一个IDR帧所属的所有slice，其idr_pic_id应保持一致。该值的取值范围为[0,65535]。
pic_order_cnt_lsb:表示当前帧序号的另一种计量方式。
delta_pic_order_cnt_bottom:表示顶场与底场POC差值的计算方法，不存在则默认为0；
slice_qp_delta：用于计算当前slice内所使用的初始qp值。