h264 I,P，B帧和PTS，DTS的关系

最新推荐文章于 2024-07-06 23:37:49 发布

jeffasd

最新推荐文章于 2024-07-06 23:37:49 发布

阅读量2.8k

点赞数 1

分类专栏： iOS_音视频

iOS_音视频专栏收录该内容

71 篇文章 4 订阅

订阅专栏

http://www.cnblogs.com/qingquan/archive/2011/07/27/2118967.html

https://tieba.baidu.com/p/1385855820

基本概念：

I frame ：帧内编码帧又称intra picture，I 帧通常是每个 GOP（MPEG 所使用的一种视频压缩技术）的第一个帧，经过适度地压缩，做为随机访问的参考点，可以当成图象。I帧可以看成是一个图像经过压缩后的产物。

P frame: 前向预测编码帧又称predictive-frame，通过充分将低于图像序列中前面已编码帧的时间冗余信息来压缩传输数据量的编码图像，也叫预测帧；

B frame: 双向预测内插编码帧又称bi-directional interpolated prediction frame，既考虑与源图像序列前面已编码帧，也顾及源图像序列后面已编码帧之间的时间冗余信息来压缩传输数据量的编码图像，也叫双向预测帧；

PTS：Presentation Time Stamp。PTS主要用于度量解码后的视频帧什么时候被显示出来

DTS：Decode Time Stamp。DTS主要是标识读入内存中的ｂｉｔ流在什么时候开始送入解码器中进行解码。

在没有B帧存在的情况下DTS的顺序和PTS的顺序应该是一样的。

ＩＰＢ帧的不同：

I frame:自身可以通过视频解压算法解压成一张单独的完整的图片。

P frame：需要参考其前面的一个I frame 或者B frame来生成一张完整的图片。

B frame:则要参考其前一个I或者P帧及其后面的一个P帧来生成一张完整的图片。

两个I frame之间形成一个GOP，在x264中同时可以通过参数来设定bf的大小，即：I 和p或者两个P之间B的数量。

通过上述基本可以说明如果有B frame 存在的情况下一个GOP的最后一个frame一定是P.

DTS和PTS的不同：

DTS主要用于视频的解码,在解码阶段使用.PTS主要用于视频的同步和输出.在display的时候使用.在没有B frame的情况下.DTS和PTS的输出顺序是一样的.

例子:

下面给出一个GOP为15的例子,其解码的参照frame及其解码的顺序都在里面:

如上图：I frame 的解码不依赖于任何的其它的帧.而p frame的解码则依赖于其前面的I frame或者P frame.B frame的解码则依赖于其前的最近的一个I frame或者P frame 及其后的最近的一个P frame.

MPEG压缩中的 I、B、P帧
首先,MPEG-1压缩的基本思想:帧内压缩和帧间压缩。
其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。

采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。
1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧;
2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧;
3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。

I帧:帧内编码帧
I帧特点:
1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输;
2.解码时仅用I帧的数据就可重构完整图像;
3.I帧描述了图像背景和运动主体的详情;
4.I帧不需要参考其他画面而生成;
5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
7.I帧不需要考虑运动矢量;
8.I帧所占数据的信息量比较大。

P帧:前向预测编码帧。
P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。
P帧特点:
1.P帧是I帧后面相隔1~2帧的编码帧;
2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差);
3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像;
4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧;
5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧;
6.由于P帧是参考帧,它可能造成解码错误的扩散;
7.由于是差值传送,P帧的压缩比较高。

B帧:双向预测内插编码帧。
B帧的预测与重构
B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。
B帧特点
1.B帧是由前面的I或P帧和后面的P帧来进行预测的;
2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量;
3.B帧是双向预测编码帧;
4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确;
5.B帧不是参考帧,不会造成解码错误的扩散。

注:I、B、P各帧是根据压缩算法的需要,是人为定义的,它们都是实实在在的物理帧,至于图像中的哪一帧是I帧,是随机的,一但确定了I帧,以后的各帧就严格按规定顺序排列

视频压缩中，每帧代表一幅静止的图像。而在实际压缩时，会采取各种算法减少数据的容量，其中IPB就是最常见的。

I帧表示关键帧，你可以理解为这一帧画面的完整保留；解码时只需要本帧数据就可以完成（因为包含完整画面）

P帧表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）

B帧是双向差别帧，也就是B帧记录的是本帧与前后帧的差别（具体比较复杂，有4种情况，但我这样说简单些，有兴趣可以看看我上面提供的资料），换言之，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码时CPU会比较累~。

从上面的解释看，我们知道I和P的解码算法比较简单，资源占用也比较少，I只要自己完成就行了，P呢，也只需要解码器把前一个画面缓存一下，遇到P时就使用之前缓存的画面就好了，如果视频流只有I和P，解码器可以不管后面的数据，边读边解码，线性前进，大家很舒服。

但网络上的电影很多都采用了B帧，因为B帧记录的是前后帧的差别，比P帧能节约更多的空间，但这样一来，文件小了，解码器就麻烦了，因为在解码时，不仅要用之前缓存的画面，还要知道下一个I或者P的画面（也就是说要预读预解码），而且，B帧不能简单地丢掉，因为B帧其实也包含了画面信息，如果简单丢掉，并用之前的画面简单重复，就会造成画面卡（其实就是丢帧了），并且由于网络上的电影为了节约空间，往往使用相当多的B帧，B帧用的多，对不支持B帧的播放器就造成更大的困扰，画面也就越卡。

一般平均来说，I的压缩率是7（跟JPG差不多），P是20，B可以达到50，可见使用B帧能节省大量空间，节省出来的空间可以用来保存多一些I帧，这样在相同码率下，可以提供更好的画质。

B帧（B frame）

B帧法是双向预测的帧间压缩算法。当把一帧压缩成B帧时，它根据相邻的前一帧、本帧以及后一帧数据的不同点来压缩本帧，也即仅记录本帧与前后帧的差值。只有采用B帧压缩才能达到200：1的高压缩。

也就是说，有B帧的视频，是比较耗费CPU/图像处理器的

B 帧在 MPEG-4 中有四种参考模式，如果是同时参考前后的画面压缩，则记录的是和 (前画面 pixel 值后画面 pixel 值)/2 的差值，也就是和「前后画面的平均」的差值。所以记录的差值个数和 P 帧一样，只有一个，没有增加。

而因为 B 帧位于前后画面的中间，以「前后画面的平均」，也就是「前后画面的中间值」来作为预测数值（预测 B 帧的 pixel 数值为多少？如果有误差，再记录差值），这样这个预测数值会比单独使用前一个画面来预测，更接近目前真正的 B 帧的数值，可想而知，如此所需要记录的差值就会很小甚至可以根本不用记录，所以便可以省下很多的 bits，提高压缩率。

例如
亮度变化 -> I B P 7 8 9

如果 B 只参考前一个画面压缩，则需记录差值 1。如果以 (I P)/2 压缩，则差值为 0，不需记录差值。（虽然要记录两个矢量，不过矢量也可以再做进一步预测压缩，总的来说，还是会比单独参考前一个画面压缩来得小很多）如果画面不是这样变化怎么办？通常来讲画面都会是这样变化，如果不是这样变化我们就不使用 B 帧就算变化不是如此规则，换个方式想，B 帧可以参考的画面还是比 P 帧多，再怎么找，也还是 B 帧可以找到误差更小的方块来使用的机率大（因为可以选择、参考的对象较多），所以 B 帧还是比 P 帧的压缩率来得高。（而且高很多，差距非常大）

除了压缩率以外，B 帧对画质的影响.....是有的，因为 B 帧这种参考前后画面的特性，等于有内插（interpolation）的效果，所以可以减少噪讯。

MPEG-4 中的 B 帧，也是非常具有威力的，除了以前的三种参考模式，还有 Direct Mode，连矢量的纪录都省了。虽然
MPEG-4 之中有 4MV 的功能，可以记录四个矢量，不过编码器在压缩的时候会判断，到底是使用 4MV 压出来的结果小，还是使用传统的方法压出来的结果小？

如果使用传统的方法压出来的结果小，便使用传统的方法记录，如果使用 4MV 压出来的结果小，才使用 4MV 来记录。

（ps. 4MV 不会用在 backward 预测）

您可以观察 VirtualDub 压缩时画面上显示的蓝线，您会发现蓝线和蓝线之间通常会有很短的蓝线插在中间，造成空隙，而且差距很大，这个就是夹在 P 之间的 B 在发挥压缩威力如果是用 DivX 5 更明显，因为 DivX 5 只能够使用 IBPBPBPB... 这种一个 B 接一个 P 的形式，所以画面上的蓝线就是「一长一短、一长一短」这样排列。

关键帧和过渡帧的联系与区别
1、两个关键帧的中间可以没有过渡帧（如逐帧动画），但过渡帧前后肯定有关键帧，因为过渡帧附属于关键帧；
2、关键帧可以修改该帧的内容，但过渡帧无法修改该帧内容。
3、关键帧中可以包含形状、剪辑、组等多种类型的元素或诸多元素，但过渡帧中对象只能是剪辑（影片剪辑、图形剪辑、按钮）或独立形状。

在视频压缩中常需用到以下的一些基本概念：
　　（一）、有损和无损压缩:
　　在视频压缩中有损（Lossy ）和无损（Lossless）的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小，丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。

　　（二）、帧内和帧间压缩:
　　帧内（Intraframe）压缩也称为空间压缩（Spatial compression）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩时各个帧之间没有相互关系，所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
　　采用帧间（Interframe）压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩（Temporal compression），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值（Frame differencing）算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。

　　（三）、对称和不对称编码:
　　对称性（symmetric）是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中，一般是把视频预先压缩处理好，尔后再播放,因此可以采用不对称（asymmetric）编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放（解压缩）该视频的时间要多得多。例如，压缩一段三分钟的视频片断可能需要10多分钟的时间，而该片断实时回放时间只有三分钟。

　　（四）数字视频压缩说明
　　如果使用数字视频，需要考虑的一个重要因素是文件大小，因为数字视频文件往往会很大，这将占用大量硬盘空间。解决这些问题的方法是压缩—让文件变小。

使用文本文件，大小问题就显得不那么重要了,因为这样的文件充满了“空格”，可以大幅度压缩—一个文本文件至少可以压缩 90%,压缩率是相当高的（压缩率是指已压缩数据与未压缩数据之比值）。其他类型的文件，如 MPEG 视频或 JPEG 照片几乎无法压缩，因为它们是用非常紧密的压缩格式制成的。

I 帧编码的基本流程为：
(1) 进行帧内预测，决定所采用的帧内预测模式。
(2) 像素值减去预测值，得到残差。
(3) 对残差进行变换和量化。
(4) 变长编码和算术编码。
(5) 重构图像并滤波，得到的图像作为其它帧的参考帧。

P 帧和 B 帧编码的基本流程为：
(1) 进行运动估计，计算采用帧间编码模式的率失真函数(节)值。P帧只参考前面的帧，B 帧可参考后面的帧。
(2) 进行帧内预测，选取率失真函数值最小的帧内模式与帧间模式比较，确定采用哪种编码模式。
(3) 计算实际值和预测值的差值。
(4) 对残差进行变换和量化。
(5) 熵编码，如果是帧间编码模式，编码运动矢量

什么是I帧/P帧/B帧

I 帧图像采用帧内编码方式，即只利用了单帧图像内的空间相关性，而没有利用时间相关性。
I 帧使用帧内压缩，不使用运动补偿，由于I 帧不依赖其它帧，所以是随机存取的入点，同时是解码的基准帧。I帧主要用于接收机的初始化和信道的获取，以及节目的切换和插入，I帧图像的压缩倍数相对较低。I帧图像是周期性出现在图像序列中的，出现频率可由编码器选择。
P帧和B帧图像采用帧间编码方式，即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测，可以提高压缩效率和图像质量。P帧图像中可以包含帧内编码的部分，即P帧中的每一个宏块可以是前向预测，也可以是帧内编码。
B帧图像采用双向时间预测，可以大大提高压缩倍数。值得注意的是，由于B帧图像采用了未来帧作为参考，因此MPEG-4编码码流中图像帧的传输顺序和显示顺序是不同的