音视频开发入门（4）：视频编解码之预测技术介绍

最新推荐文章于 2023-02-28 18:59:36 发布

土豆西瓜大芝麻

最新推荐文章于 2023-02-28 18:59:36 发布

阅读量445

点赞数

分类专栏：音视频文章标签： html5 html css

原文链接：http://www.52im.net/thread-235-1-1.html

版权

音视频专栏收录该内容

20 篇文章 8 订阅

订阅专栏

上一节的图中有一个表示显示的图像序列与编码序列是不同的，不知道大家注意到没有，这个图很重要，编码是有固定规则的，视屏播放时，并不是按照各帧达到顺序播放的，而是按照这个规则进行播放。

前言

即时通讯应用中的实时音视频技术，几乎是IM开发中的最后一道高墙。原因在于：实时音视频技术 = 音视频处理技术 + 网络传输技术的横向技术应用集合体，而公共互联网不是为了实时通信设计的。有关实时音视频开发时的技术难题请参见《音视频云声网Agora：从demo到实用，中间还差1万个WebRTC》。

本文主要讲解实时音视频技术中视频技术的预测技术理论知识。

系列文章

本文是系列文章中的第4篇，本系列文章的大纲如下：

1. 预测技术的作用

目的是去除空间冗余和时间冗余（简单的讲，就是把重复出现的东西用尽量少的字节表示）。因为视频存在大量的空间冗余和时间冗余，包括空间冗余、时间冗余，预测后得到去除大部分空间或时间冗余的残差。

空间冗余：用帧内预测编码去除
- 基于块的帧内预测
时间冗余：用帧间预测编码去除
- 基于块匹配（Block Matching）的帧间预测

2. 空间冗余

图像空间相邻像素具有很强的相关性，帧内预测技术去除空间冗余。

3. 亮度预测模式

用PS的时候，特别是颜色替换和边缘擦除时，我们也会发现这个现象，一般沿着某个固定方向，颜色是一样的，我们可以把该方向的直接换掉。

即时通讯音视频开发（四）：视频编解码之预测技术介绍_2.png

即时通讯音视频开发（四）：视频编解码之预测技术介绍_3.png

以上述右图中方框圈中区域为例，该区域右下方均置为黑色（暂时），我们分析一下它的来源。下图中，垂直方向的ABCD是上图右图方框中的上面紧邻的4个单元的值，同理，下图中水平方向的IJKL也是方框左侧紧邻的值。左下右下，是只以当前值为依据推算左下右下的值。DC暂时不懂，好像是平均值的样子（因为值都一样了）

即时通讯音视频开发（四）：视频编解码之预测技术介绍_4.png

4. 色度预测模式

即时通讯音视频开发（四）：视频编解码之预测技术介绍_5.png

即时通讯音视频开发（四）：视频编解码之预测技术介绍_6.png

5. 时间冗余

视频图像在时间上有较强的相关性，即存在时间冗余。去除时间冗余的编码技术有：运动估计（Motion Estimation，ME）、运动补偿（Motion Compensation，MC）。

运动估计（Motion Estimation，ME）
- 为待编码块搜索最相似的预测块
- 记录运动矢量（Motion Vector，MV)
- 记录预测残差：
运动补偿（Motion Compensation，MC）
- 根据运动矢量获取预测块
- 根据预测残差计算重构块：

即时通讯音视频开发（四）：视频编解码之预测技术介绍_7.png

6. 运动模型

即时通讯音视频开发（四）：视频编解码之预测技术介绍_8.png

即时通讯音视频开发（四）：视频编解码之预测技术介绍_9.png

7. 匹配准则

即时通讯音视频开发（四）：视频编解码之预测技术介绍_11.png

匹配准则简化

简化技术方法
- 分别计算当前块和预测块的象素值和
- 根据简化形式，比较当前块和预测块
- 如果用简化准则对预测块和当前块比较的结果比以前最好的结果差，可以确定预测效果不好，不必对预测块再进行比较。

8. 运动估计

目的是去除视频图像的时间冗余。运动估计在搜索范围内为当前块寻找匹配最好的预测块，全搜索方式的运动估计计算复杂度高。

即时通讯音视频开发（四）：视频编解码之预测技术介绍_12.png

全搜索复杂度分析

图像大小：MxM
预测块大小：NxN
搜索范围：(-R，R)
每个搜索点象素比较个数：N2
搜索点个数(2R+1)2
在搜索范围内的象素比较个数总和N2(2R+1)2
一帧图像所有块的全搜索象素比较个数总和N2(2R+1)2(M/N)2=(2R+1)2M2
例：M=512，N=4，R=8，帧率：30帧/秒

(2R+1)2M2

=172X5122

= 75759616次/帧

= 75759616x30次/秒

=2272788480次/秒

采用SSD匹配准则：每次象素比较需1个减法，1个乘法，1个加法，则上述全搜索计算每秒需要2272788480x2次加减法和2272788480次乘法操作。

9. 快速运动估计算法种类

在保持预测精度的同时减少运动估计的搜索次数，典型算法有：

三步搜索（Three Step Search，TSS）
二维Log搜索（2D Logarithmic Search，2DLOG）
正交搜索（Orthogonal Search Algorithm，OSA）
十字搜索（Cross Search Algorithm，CSA）
新三步搜索（New Three Step Search，NTSS）
四步搜索（Four Step Search，FSS）
共轭方向搜索（Conjugate Direction Search，CDS）
梯度下降搜索（Gradient Descent Search，GDS）
层次块搜索（Hierarchical Block Matching Algorithm，HBMA）

三步搜索

由粗到精搜索最优点，初始步长为R/2.
第一步：检查起始点和其周围步长为R/2的8个点，将最优点作为第二步的起始点；
第二步：以新的起始点为中心检查其周围步长为R/4的8个点，找到最优点作为第三步的起始点；
第三步：以新的起始点为中心检查其周围步长为R/8的8个点，找到最优点，如果R/8=1则搜索终止，最优点位置的预测块作为最优的预测块，否则重复该过程直到R/n2=1；
三步搜索方法检查点的个数为1+8log2（d+1），当d=8时，检查点个数为9+8+8=25

二维Log搜索

每一步采用十字搜索模式
如果每一步的最优点为中心点或者搜索窗的边界点，搜索步长减半，否则搜索步长不变
当搜索步长为1时，中心点周围的8个点都要检查
两个搜索路径一个需要5+3+3+8=19，另外一个需要5+3+2+3+2+8=23

正交搜索

起始搜索步长R/2，从起始点开始水平搜索三个点，得到最优点并沿着最优点垂直方向搜索相邻的两个点，得到最优点，以搜索步长为R/4再以同样的方式先水平再垂直搜索，当步长为1时停止搜索
搜索方法检查点的个数为1+4log2(d+1)，当d=8时，检查点个数为3+2+2+2+2+2=13。

十字搜索

起始搜索步长R/2，从起始点开始以"X"形十字搜索，当搜索步长降为1时，如果上一步的最优点为中心点，左上点或右下点，则这一步搜索以"+"形状十字搜索，然后结束搜索，否则还是以"X"形十字搜索，然后结束搜索。
十字搜索方法检查点的个数为1+4log22d，当d=8时，检查点个数为5+4+4+4=17

新三步搜索

与三步搜索方法不同的是，考虑到运动矢量高的中心分布特点，新三步搜索方法，除了围绕起始点为中心搜索步长为R/2的8个点之外，在起始点周围增加了步长为1的8个搜索点，如果最优点为步长为1的8个搜索点之一，则在最优点邻近的三个点中搜索最优点，然后结束搜索，否则，和三步搜索方法过程一样
其中一个搜索路径需要检查点个数为17+3=20，另一个需要17+8+8=33。

块梯度下降搜索

该方法以起始点为中心搜索8个步长为1的相邻点，确定最优点，再以最优点为中心搜索8个步长为1的相邻点，如此循环下去，不限制搜索步骤，但当搜索得到的最优点为中心点或者到搜索窗的边界，搜索终止。

层次块搜索

对编码图像和参考图像下采样，分别得到编码图像和参考图像的下采样图像，未经采样处理的编码图像和参考图像属于第0层，一次下采样的编码图像和参考图像属于第1层，对第1层图像再进行下采样得到的编码图像和参考图像属于第2层，依次重复上述过程，得到第n层下采样的编码图像和参考图像。
然后在n层下采样参考图像的搜索范围中找到与下采样编码图像块最佳匹配块的MV，该MV作为n-1层的运动估计搜索范围的中心点，依次重复上述过程，直到n=0为止，此时得到的最佳匹配块就是编码图像的预测块，其对应的MV为最终的最优MV。

10. 搜索算法复杂度比较

即时通讯音视频开发（四）：视频编解码之预测技术介绍_13.png

11. 分像素运动估计与运动补偿

时域运动位置更可能在整象素之间，即分像素上。利用相邻的整象素可以估计出分象素的值：常用线性或双线性插值得到分象素的值。分象素运动估计有更高的预测精度，但复杂度也更高：1/2分象素运动估计，图像存储空间增加4倍，运动矢量需要放大2倍，1/4分象素运动估计，图像存储空间增加16倍，运动矢量需要放大4倍，计算复杂度也成倍增加。

即时通讯音视频开发（四）：视频编解码之预测技术介绍_14.png

12. 分像素插值

即时通讯音视频开发（四）：视频编解码之预测技术介绍_15.png

13. 多参考帧预测

有更多的候选图像，搜索更精确的预测块。

即时通讯音视频开发（四）：视频编解码之预测技术介绍_16.png

14. 图像分块编码

即时通讯音视频开发（四）：视频编解码之预测技术介绍_18.png

即时通讯音视频开发（四）：视频编解码之预测技术介绍_19.png

视频内容的运动非常复杂，图像分块编码可以更好的提高运动预测精度，提高压缩效率。要在编码块大小和附信息（MV，Mode）编码比特数之间权衡，小的编码块大小会有更好的预测但有更多的附信息比特数。

即时通讯音视频开发（四）：视频编解码之预测技术介绍_20.png

15. 双向预测编码

即时通讯音视频开发（四）：视频编解码之预测技术介绍_21.png

16. B帧有更好的编码效率

新出现的对象参考将来的帧有更好的预测效果，前后两个预测的平均值可以减少预测方差。

即时通讯音视频开发（四）：视频编解码之预测技术介绍_22.png

17. 全局运动估计

基于全局仿射运动模型。预测精度不如基于块的运动估计。MV数目少，适合简单运动场景的运动估计。

即时通讯音视频开发（四）：视频编解码之预测技术介绍_23.png

同前，本文还是增加了部分内容，参考了https://www.cnblogs.com/xkfz007/archive/2012/07/29/2613824.html

土豆西瓜大芝麻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
音视频开发入门（4）：视频编解码之预测技术介绍

上一节的图中有一个表示显示的图像序列与编码序列是不同的，不知道大家注意到没有，这个图很重要，编码是有固定规则的，视屏播放时，并不是按照各帧达到顺序播放的，而是按照这个规则进行播放。前言即时通讯应用中的实时音视频技术，几乎是IM开发中的最后一道高墙。原因在于：实时音视频技术 = 音视频处理技术 + 网络传输技术的横向技术应用集合体，而公共互联网不是为了实时通信设计的。有关实时音视频开发时的技术难题请参见《音视频云声网Agora：从demo到实用，中间还差1万个WebR...
复制链接

扫一扫

专栏目录