h264和h265

~怎么回事啊~

于 2021-08-19 15:16:24 发布

阅读量1.2k

点赞数

分类专栏： ffmpeg 文章标签： ffmpeg

本文链接：https://blog.csdn.net/LIJIWEI0611/article/details/119752067

版权

ffmpeg 专栏收录该内容

19 篇文章

订阅专栏

1 使用ffmepg抽离视频中的视频流和音频流

抽离音频：

ffmpeg -i    h264.mp4   -acodec copy -vn  audio.aac

-i的意思是input，后接输入源。-codec的意思是直接复制流

使用ffplay播放

ffplay audio.aac

抽离视频：

ffmpeg -i h264.mp4      -vcodec copy  -bsf    h264_mp4toannexb -f h264  out.h264

说明：

-i h264.mp4 :是输入的MP4文件

-vcodec copy：从MP4封装中进行拷贝

-bsf h264_mp4toannexb：从MP4拷贝到annexB封装

-f h264：采用h.264格式

out.h264：输出的文件名称

播放：

ffplay   out.h264

可以使用notepad++ 安装十六进制的插件查看out.h264中的内容https://jingyan.baidu.com/article/ceb9fb100476ebcdac2ba057.html

这些内容的含义在后面解释

抽离h265

ffmpeg -i h265.mp4  -vcodec copy -f hevc out.h265

H261

H.261 用于视频通信，会产生多个国家的互通困难的问题，不同国家采用不同的彩电制式，不可能直接互通。 H.261 采用一种公共中间格式（CIF， Common Intermediate Format），不论何种彩色格式，发送方先把自己国家的彩电制式转换成 CIF 格式，经 H.261 编码后再由CIF 格式转换到接收方彩电制式.

视频信源编码器用于视频信号的码率压缩，主要采用混合编码方法；视频复合编码器将每帧图像数据编排成四层结构，并通过熵编码对视频数据进一步压缩输出。传输缓冲器和码率控制器用于保证输出码流尽可能稳定。传输编码器则用于视频数据的误码检测和纠正。解码器各部分功能与编码器相反。

H.261信源编码器框图如下所示，输入以MB（宏块）为单位

基于宏块的编码：

宏块存在的意义：解决帧内压缩。是信源编码器通过算法划分的网格。

H264的基本原理其实非常简单，下我们就简单的描述一下H264压缩数据的过程。通过摄像头采集到的视频帧（按每秒 30 帧算），被送到 H264 编码器的缓冲区中。编码器先要为每一幅图片划分宏块。

以下面这张图为例:

划分宏块

H264默认是使用 16X16 大小的区域作为一个宏块，也可以划分成 8X8 大小。

划分好宏块后，计算宏块的像素值。

以此类推，计算一幅图像中每个宏块的像素值，所有宏块都处理完后如下面的样子。

划分子块

H264对比较平坦的图像使用 16X16 大小的宏块。但为了更高的压缩率，还可以在 16X16 的宏块上更划分出更小的子块。子块的大小可以是 8X16､ 16X8､ 8X8､ 4X8､ 8X4､ 4X4非常的灵活。

上幅图中，红框内的 16X16 宏块中大部分是蓝色背景，而三只鹰的部分图像被划在了该宏块内，为了更好的处理三只鹰的部分图像，H264就在 16X16 的宏块内又划分出了多个子块。

一幅图像被划分好宏块后，对每个宏块可以进行 9 种模式的预测。找出与原图最接近的一种预测模式。

宏块越大，视频压缩越高

H.264的宏块，也是编码标准的基本处理单元，通常它的大小也为16x16像素。但在H.264的简介一文中我们就说过，H.264的预测图块可以小到4x4像素。所以这也促成了，16x16像素的宏块，可以接着再划分成子宏块这一操作。

在这里插入图片描述

在实际的H.264编码时，可能会使用8x8、或4x8、或8x4、或4x4像素的子宏块，也有可能是它们的组合。
像素块越小，编码的复杂度也会随之增加，编码效率自然就会降低。但是这样是值得的，因为图像的压缩效率有了显著提高，也就是编码后得到的相同质量的图像，H.264的压缩比更大，占用的空间及带宽更小。

使用的软件：VideoEye.exe

可以看出大部分宏块大小是16x16,信源编码器的作用就是划分宏块，H264一般宏块大小16x16，h265的宏块大小最大能到64x64.

使用HEVC analyzer分析h265码流：宏块大小64x64 到 8x8

h264 固定为16x16,h265的宏块称为CTU

帧分组

视频播放的本质是宏块的运动

对于视频数据主要有两类数据冗余，一类是时间上的数据冗余，另一类是空间上的数据冗余。其中时间上的数据冗余是最大的。下面我们就先来说说视频数据时间上的冗余问题。

为什么说时间上的冗余是最大的呢？假设摄像头每秒抓取30帧，这30帧的数据大部分情况下都是相关联的。也有可能不止30帧的的数据，可能几十帧，上百帧的数据都是关联特别密切的。

对于这些关联特别密切的帧，其实我们只需要保存一帧的数据，其它帧都可以通过这一帧再按某种规则预测出来，所以说视频数据在时间上的冗余是最多的。

为了达到相关帧通过预测的方法来压缩数据，就需要将视频帧进行分组。那么如何判定某些帧关系密切，可以划为一组呢？我们来看一下例子，下面是捕获的一组运动的台球的视频帧，台球从右上角滚到了左下角。

H264编码器会按顺序，每次取出两幅相邻的帧进行宏块比较，计算两帧的相似度。如下图：

通过宏块扫描与宏块搜索可以发现这两个帧的关联度是非常高的。进而发现这一组帧的关联度都是非常高的。因此，上面这几帧就可以划分为一组。其算法是：在相邻几幅图像画面中，一般有差别的像素只有10%以内的点,亮度差值变化不超过2%，而色度差值的变化只有1%以内，我们认为这样的图可以分到一组。

在这样一组帧中，经过编码后，我们只保留第一帖的完整数据，其它帧都通过参考上一帧计算出来。我们称第一帧为IDR／I帧，其它帧我们称为P B帧，这样编码后的数据帧组我们称为GOP。

一个可以播放的帧的帧类型是I帧，与I帧的差异程度在5%,P帧与I帧的差异程度在30%;

I帧保存了一幅完整的图像，I帧的数量越多，视频越大，I帧间隔越大，视频文件越小；

P帧含有运动矢量和差异信息

GOP

在视频编码序列中，GOP即Group of picture（图像组），强相关的一组帧

编码顺序：编码I帧后，向后找到相似程度相差30%的P帧，然后向前编码B帧

　　所以在码率不变的前提下，GOP值越大，P、B帧的数量会越多，画面细节更多，也就更容易获取较好的图像质量；Reference越大，B帧的数量越多，同理也更容易获得较好的图像质量。

　　需要说明的是，通过提高GOP值来提高图像质量是有限度的，在遇到场景切换的情况时，H.264编码器会自动强制插入一个I帧，此时实际的GOP值被缩短了。另一方面，在一个GOP中，P、B帧是由I帧预测得到的，当I帧的图像质量比较差时，会影响到一个GOP中后续P、B帧的图像质量，直到下一个GOP开始才有可能得以恢复，所以GOP值也不宜设置过大。

　　同时，由于P、B帧的复杂度大于I帧，所以过多的P、B帧会影响编码效率，使编码效率降低。另外，过长的GOP还会影响Seek操作（找I帧）的响应速度，由于P、B帧是由前面的I或P帧预测得到的，所以Seek操作需要直接定位，解码某一个P或B帧时，需要先解码得到本GOP内的I帧及之前的N个预测帧才可以，GOP值越长，需要解码的预测帧就越多，seek响应的时间也越长。

从上面的解释看，我们知道I和P的解码算法比较简单，资源占用也比较少，I只要自己完成就行了，P呢，也只需要解码器把前一个画面缓存一下，遇到P时就使用之前缓存的画面就好了，如果视频流只有I和P，解码器可以不管后面的数据，边读边解码，线性前进，大家很舒服。
但网络上的电影很多都采用了B帧，因为B帧记录的是前后帧的差别，比P帧能节约更多的空间，但这样一来，文件小了，解码器就麻烦了，因为在解码时，不仅要用之前缓存的画面，还要知道下一个I或者P的画面（也就是说要预读预解码），而且，B帧不能简单地丢掉，因为B帧其实也包含了画面信息，如果简单丢掉，并用之前的画面简单重复，就会造成画面卡（其实就是丢帧了），并且由于网络上的电影为了节约空间，往往使用相当多的B帧，B帧用的多，对不支持B帧的播放器就造成更大的困扰，画面也就越卡。

一般平均来说，I的压缩率是7（跟JPG差不多），P是20，B可以达到50，可见使用B帧能节省大量空间，节省出来的空间可以用来保存多一些I帧，这样在相同码率下，可以提供更好的画质。