H.264基础知识总结

最新推荐文章于 2024-03-04 14:33:22 发布

LINK稚朋

最新推荐文章于 2024-03-04 14:33:22 发布

阅读量506

点赞数 1

分类专栏：音视频文章标签： h.264 音视频

本文链接：https://blog.csdn.net/qq_41281601/article/details/116095047

版权

音视频专栏收录该内容

1 篇文章 0 订阅

订阅专栏

简介

H264是视频编解码格式；学习H264之前首先要搞明白一个问题，视频为什么要编码，编码传输不行吗？视频就是一堆图片按时间顺序播放，在编码标准出现之前，不经过编码的原始码流，可以这么理解成就是携带时间戳的图片。可以随便找个图片看下他的大小小则几十K，比较清晰的甚至需要十几M。这么大的数据量造成了，视频在存储时会耗费大量的存储空间，网络传输时占用大量带宽和流量，而编码就是为了减少视频的数据量，减少存储和网络中浪费的资源，在发送端做压缩在接收端做解压；接收端播放时将压缩后的数据量依据编解码算法和编解码规则，解码出来的视频和不经过压缩后传输的效果做到几乎一样；编码的本质是压缩
在这里插入图片描述

H264基础概念

序列
H264编码标准中所遵循的理论依据个人理解成：参照一段时间内相邻的图像中，像素、亮度与色温的差别很小。所以当面对一段时间内图像我们没必要去对每一幅图像进行完整一帧的编码，而是可以选取这段时间的第一帧图像作为完整编码，而下一幅图像可以记录与第一帧完整编码图像像素、亮度与色温等的差别即可，以此类推循环下去。什么叫序列呢？上述的这段时间内图像变化不大的图像集我们就可以称之为一个序列。序列可以理解为有相同特点的一段数据。但是如果某个图像与之前的图像变换很大，很难参考之前的帧来生成新的帧，那么久结束删一个序列，开始下一段序列。重复上一序列的做法，生成新的一段序列。
GOP(画面组)
GOP我个人也理解为跟序列差不多意思，就是一段时间内变化不大的图像集。GOP结构一般有两个数字，如M=3，N=12。M指定I帧和P帧之间的距离，N指定两个I帧之间的距离。上面的M=3，N=12，GOP结构为：IBBPBBPBBPBBI。在一个GOP内I frame解码不依赖任何的其它帧，p frame解码则依赖前面的I frame或P frame，B frame解码依赖前最近的一个I frame或P frame 及其后最近的一个P frame。
帧类型
H264结构中，一个视频图像编码后的数据叫做一帧，一帧由一个片（slice）或多个片组成，一个片由一个或多个宏块（MB）组成，一个宏块由4x4-16x16的yuv数据组成。宏块作为H264编码的基本单位。在H264协议内定义了三种帧，分别是I帧、B帧与P帧。I帧就是之前所说的一个完整的图像帧，而B、帧与P帧所对应的就是之前说的不编码全部图像的帧。P帧与B帧的差别就是P帧是参考之前的I帧而生成的，而B帧是参考前后图像帧编码生成的。
IDR帧(关键帧)
在编码解码中为了方便，将GOP中首个I帧要和其他I帧区别开，把第一个I帧叫IDR，这样方便控制编码和解码流程，所以IDR帧一定是I帧，但I帧不一定是IDR帧；IDR帧的作用是立刻刷新,使错误不致传播,从IDR帧开始算新的序列开始编码。I帧有被跨帧参考的可能,IDR不会。
宏块
宏块是H264编码的关键，H264默认是使用 16X16 （像素点）大小的区域作为一个宏块，也可以划分成 8X8 大小。视频中相邻的两个图片之间的数据不大，两张图片中有大量的重复数据，对于这些以不同的只是宏块的位置，所以第二章图片只要记录这些相似图片的矢量位移就可以。
编码算法（帧内压缩和帧间压缩）
帧内（Intraframe）压缩也称为空间压缩（Spatialcompression）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩是编码一个完整的图像，所以可以独立的解码、显示。帧内压缩本质是对宏块的压缩和预测。
帧间（Interframe）压缩的原理是：相邻几帧的数据有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩（Temporalcompression），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值（Framedifferencing）算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。帧间压缩本质是记录宏块的运动信息。

H264码流格式

总体来看H264的结构如下图
在这里插入图片描述
细分到每个图像序列，（GOP,也就是上面视频序列中的一个节点）它的文件结构如下

我们可以看到，H264码流是由一个个的NAL单元组成，其中SPS、PPS、IDR和SLICE是NAL单元某一类型的数据；实际的网络数据传输过程中H264的数据结构是以NALU（NAL单元）进行传输的，传输数据结构组成为[NALU Header]+[RBSP]
一个原始的H.264 NALU 单元常由 [StartCode] [NALU Header] [NALU Payload] 三部分组成，
其中 Start Code 用于标示这是一个NALU 单元的开始，必须是”00 00 00 01” 或”00 00 01”
在这里插入图片描述
NAL单元的头部是由forbidden_bit(1bit)，nal_reference_bit(2bits)（优先级），nal_unit_type(5bits)（类型）三个部分组成的，组成如图6所示：
1、F(forbiden):禁止位，占用NAL头的第一个位，当禁止位值为1时表示语法错误；
2、NRI:参考级别，占用NAL头的第二到第三个位；值越大，该NAL越重要。
3、Type:Nal单元数据类型，也就是标识该NAL单元的数据类型是哪种，占用NAL头的第四到第8个位；
在这里插入图片描述
其中nal_unit_type是比较重要的，所以记录一下

每种类型都有代表一种数据类型，比较重要的以下几种做个简单的介绍：
1、非VCL的NAL数据类型：
1）、SPS（序列参数集）：SPS对如标识符、帧数以及参考帧数目、解码图像尺寸和帧场模式等解码参数进行标识记录。
2）、PPS（图像参数集）：PPS对如熵编码类型、有效参考图像的数目和初始化等解码参数进行标志记录。
3）、SEI(补充增强信息)：这部分参数可作为H264的比特流数据而被传输，每一个SEI信息被封装成一个NAL单元。SEI对于解码器来说可能是有用的，但是对于基本的解码过程来说，并不是必须的。

@：先标记一下，SPS、PPS内容是编码器给的。（出处的话，慢慢研究）

2、VCL的NAL数据类型
1）、头信息块，包括宏块类型，量化参数，运动矢量。这些信息是最重要的，因为离开他们，被的数据块种的码元都无法使用。该数据分块称为A类数据分块。
2）、帧内编码信息数据块，称为B类数据分块。它包含帧内编码宏块类型，帧内编码系数。对应的slice来说，B类数据分块的可用性依赖于A类数据分块。和帧间编码信息数据块不通的是，帧内编码信息能防止进一步的偏差，因此比帧间编码信息更重要。
3）、帧间编码信息数据块，称为C类数据分块。它包含帧间编码宏块类型，帧间编码系数。它通常是slice种最大的一部分。帧间编码信息数据块是不重要的一部分。它所包含的信息并不提供编解码器之间的同步。C类数据分块的可用性也依赖于A类数据分块，但于B类数据分块无关。
以上三种数据块每种分割被单独的存放在一个NAL单元中，因此可以被单独传输。

参考资料：
https://blog.csdn.net/guoyunfei123/article/details/106202362
https://www.bilibili.com/video/BV137411C7hS

LINK稚朋

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
H.264基础知识总结

简介H264是视频编解码格式；学习H264之前首先要搞明白一个问题，视频为什么要编码，编码传输不行吗？视频就是一堆图片按时间顺序播放，在编码标准出现之前，不经过编码的原始码流，可以这么理解成就是携带时间戳的图片。可以随便找个图片看下他的大小小则几十K，比较清晰的甚至需要十几M。这么大的数据量造成了，视频在存储时会耗费大量的存储空间，网络传输时占用大量带宽和流量，而编码就是为了减少视频的数据量，减少存储和网络中浪费的资源，在发送端做压缩在接收端做解压；接收端播放时将压缩后的数据量依据编解码算法和编解码规则，
复制链接

扫一扫