h.264 optimization

最新推荐文章于 2024-10-09 09:53:23 发布

listream1

最新推荐文章于 2024-10-09 09:53:23 发布

阅读量819

点赞数

文章标签： h.264 optimization 算法 algorithm 优化 video

http://www.google.cn/search?complete=1&hl=zh-CN&q=QP+%E5%BF%AB%E9%80%9F%E7%AE%97%E6%B3%95&meta=

http://www.paper.edu.cn
- 1 -
H.264 帧间预测模式选择和快速运动估计优化算法
梁睿
北京邮电大学电信工程学院，北京 (100876)
E-mail：liangrui.bupt@gmail.com
摘要：H.264 是由ISO/IEC 和ITU-T 共同制定的新的视频编码标准，在未来的视频通信领
域具有广泛的应用前景。然而由于采用了多帧和多宏块运动估计、率失真优化等技术使得编
码计算复杂度大幅增加，限制了H.264 的实时应用。为了降低复杂度，本论文提出了一种有
效的帧间预测模式选择算法，同时充分利用模式选择的结果对原有的运动估计算法进行了改
进，使得编码速度有显著提高。实验结果显示，优化算法对于不同的量化步长，可以平均减
少70％以上的运动估计耗时，同时PSNR 的平均减小低于0.11dB，对图像质量的影响可以
忽略，而输出码流比特率的增加仅在2.5％以内。
关键词：H.264，帧间预测模式选择，运动估计
中图分类号：TN915
1. 引言
H.264 是由ISO/IEC 和ITU-T 共同制定的新的视频编码标准[1]。标准采用多模式预测、
率失真优化、灵活高效的熵编码等技术，使得H.264 同H.263 相比，编码效率可以提高50%
以上，同时图像质量更好，并且具有更好的容错能力和网络适应性。可广泛应用于多媒体流
服务，移动多媒体通信和交互式多媒体等应用[2]。然而H.264 在编码性能大大提高的同时，
编码的计算复杂度也急剧增加，在很大程度上限制了它的实际应用。
实验结果显示，帧间预测部分平均占整个编码耗时的约50％，所以其算法的优化是提
高编码效率的关键。H.264 帧间预测包括模式选择和运动补偿，为了获得很好的压缩性能同
时保持图像的质量，使用率失真优化（RDO）来选择最佳的预测模式和运动矢量[3]。但是
H.264 原算法中计算复杂，编码耗时显著增加，无法满足实时应用的要求。因此很多快速运
动估计算法和模式决定算法被提出，比如有利用门限值提前终止模式选择的算法[4][5][6]，用
来减少对于候选预测模式的搜索，从而减少耗时。另外还有方法利用边缘映射，根据宏块图
像的均匀特性，分配合适的预测模式给每一个宏块和他的子划分[7]。
通过图像特性分析，我们发现图像序列中存在很大部分的均匀和平稳区域，它们被划分
为小尺寸的机会很小，并且没有必要再进行小尺寸块类型的RDO 搜索。通过确立一些判断
的准则，提前确定宏块模式，可以极大的节约编码时间和降低复杂度。本文根据图像的相关
性分析，提出一种有效的帧间预测模式选择算法，同时充分利用模式选择的结果对运动估计
算法进行改进。论文的组织结构大致如下：第2 部分通过分析H.264 原有模式选择算法的局
限性，提出优化后的算法；第3 部分则在第2 部分选择结果的基础上提出新的快速运动估计
算法，第4 部分对引入的两种优化算法进行数学和仿真分析，从而验证其在减少编码耗时上
的有效性以及保持编码特性上的优势；最后在第5 部分中总结全文。
2. 模式选择的优化算法
2.1 图像相关性分析及优化算法概述
H.264 原算法中，没有对图像特性进行分析，每幅图像都要进行7 种模式预测，而且每
个模式下的每个子宏块的也都要进行运动估计，最后利用率失真算法对所有可能模式进行比
较，选出最佳预测模式[3]。尽管率失真优化可以带来非常好的编码性能，但是对所有模式的
http://www.paper.edu.cn
- 2 -
搜索消耗大量时间。
通过对多组QCIF 和CIF 格式的标准测试序列的统计分析发现：跳帧和16x16 模式约占
总体模式的70％，而采用4x4、4x8 和8x4 模式只占3％－5％而编码处理时间则占了30％
－50％，说明图像序列中存在很大部分的均匀和平稳部分。通过对经过编码后图像的块模式
划分的情况分析，我们发现，均匀区域，由于时间平稳性，使用16x16 宏块较合适。而包含
明显边界特性的区域，应该使用较小的尺寸。特性复杂且有较多运动的图像应该以更小的划
分来编码。编码后图像的块模式划分如图1 所示。通过确立一些判断的准则，提前确定平稳
区域的宏块模式，那么可以极大的节约编码时间和降低复杂度[8] [9]，从而适应实时业务的编
码要求。
图1 经过H.264 编码后的最佳块划分
视频编码理论中有一个重要应用参数：对应象素点的绝对差之和(SAD)。
ΣΣ
= =
= −
N
i
N
j
i j i j SAD x y
1 1
, ,
（1）
SAD 的较大值出现在运动区域或者含有很多细节的部分，对应的，小SAD 值出现在均
匀，平稳地区域。帧间预测的目的就是去除相邻帧的时间相关性。本论文优化方案的核心是
使用SAD 作为相关性的判断，根据图像的相关性进行模式的划分，选择出尽可能少的候选
模式，仅在候选模式上进行RDO 选出最佳划分模式，这样便可显著减少编码耗时。
2.2 帧间模式选择优化算法
优化算法首先对图像帧进行16x16 宏块的划分，计算每个宏块的SAD。将每个SAD 与
预先设定的门限值TH1 进行比较，小于门限的宏块，采用inter16x16，16x8 和8x16 模式，
定义为类型A；大于门限时，采用inter8x8，8x4，4x8 和4x4 模式，定义为类型B。上述属
于粗略划分，把宏块分为两个大的类别。
进行完粗略选择之后，优化算法分别对两种类型进行相应的整数像素点的快速运动估
计，找到最佳的匹配位置，然后根据此像素周围像素的SAD 值，我们将对两个大的分类进
行细致的划分，具体步骤如下：
第一步：
对于类型A，以16x16 模式执行改进后的快速算法(我们将在后面讨论)，找到匹配位置。
对于类型B，以8x8 模式执行改进后的快速算法，找到匹配位置。
第二步：
http://www.paper.edu.cn
- 3 -
计算匹配位置像素点周围像素的SAD 值，找出其中最大水平SAD 值(SAD_Vmax)和最
大垂直SAD 值(SAD_Vmax)，比较两者，分情况选择不同的划分模式。
第三步：
对于类型A：如果SAD_Hmax>SAD_Vmax，选择16x16 和16x8 为候选模式，进行改
进后的快速运动估计算法并进行率失真优化，选择拥有最小率失真值（rdcost）的模式作为
最佳模式。如果SAD_Hmax<SAD_Vmax，选择16x16 和8x16 为候选模式，进行上述操作。
如果SAD_Hmax=SAD_Vmax，选择16x16、16x8 和8x16 为候选模式，进行改进后的快速
运动估计算法并进行率失真优化，选择三个候选模式中拥有最小rdcost 值的模式作为最佳模
式。
对于类型B，和类型A 类似。
第四步：我们设置上述最佳模式搜索出的结果作为最匹配的位置，并且记录运动矢量。
整个流程如图2 所示
图2 优化后的H.264 帧间预测模式详细确定方法
3. 快速运动估计算法的改进
原有H.264 算法在进行运动估计时，首先进行运动向量预测，获得初始运动向量，然后
以此为搜索中心进行块匹配搜索，寻找最佳的运动矢量，使参考块与候选块之间差别最小。
即运动矢量v 的取值满足(2)式。
) ) 1 , ( ) , ( ( minΣ∈
∈
− + −
v S r W
f r t f r v t
（2）
其中f (r,t) 表示位于t 时间的帧上r 处亮度或色度信息的强度，W 表示大小为N × N 的待
匹配块，S 是搜索区域，其大小为(2w +1) × (2w +1) [10]。
http://www.paper.edu.cn
- 4 -
H.264原有整像素搜索快速运动估计算法的欠缺，主要表现在以下方面：
(1) 对所有图像都采用统一固定的多个参考帧和多宏块估计的算法，不对图像特性进行分
析。
(2) 搜索半径固定，对于均匀的图像区域，过大的搜索半径对提高性能作用不大，却花费了
较多时间。
(3) DS搜索法和HEXBS搜索法，对于形状为正方形的块模式，覆盖效果比较好，其搜索范围
近似于一个圆，但对于16x8、8x16、8x4、4x8块模式，由于块的长宽不一致，其搜索覆盖效
果不好。
优秀的运动估计的算法是根据运动情况的分类，动态的选择快速搜索方法[11]。我们的
算法对于运动情况的分类是根据帧间预测模式，充分利用模式选择的结果。改进算法如下：
(A) 若motion=low，即16x16、16x8、8x16 大尺寸划分模式的，我们选用Diamond (钻石形)
模式进行运动搜索，直至找到最佳匹配像素点。
(B) 若motion=medium，即使用8x8、8x4、4x8 尺寸划分模式的，首先选用Hexagon (六边
形) 模式进行搜索，找到初步匹配点。以此点为中心，转入Diamond 模式搜索，直至找到最
佳匹配像素点。
(C) 若motion=high，即使用4x4 划分模式的，先使用Big Hexagon (大六边形) 进行搜索，
找到运动矢量指示的范围。转入Hexagon 模式搜索，找到初步匹配点。以此点为中心，切
换到Diamond 模式搜索，直至找到最佳匹配像素点。
(D) 自适应的改变搜索的范围。对大尺寸的块模式，搜索半径相应减小，保证运动估计性能
同时简化算法复杂度；对于尺寸比较小的模块，搜索半径相应增大，保证匹配点的准确度。
这样使得在概率最大的范围内，搜索达到最优效果。
图3为不同测试序列，改进算法和原算法所要搜索的像素点的对比。
图3 改进的快速运动估计算法和原JM 算法复杂度比较，绿色为改进算法，红色为原算法。
4. 实验结果及分析
4.1 实验平台和测试条件
实验采用了JVT 的参考测试模型JM9.3[12]作为优化算法测试平台。实验条件是：(1)编
图像序列的前100帧；(2)CAVLC 熵编码；(3)5参考帧；(4)搜索范围32像素点；(5)采用Hadamard
http://www.paper.edu.cn
- 5 -
变换；(6)使用率失真优化；(7)编码序列GOP 为IPPP；(8)量化系数分为28，32，36三组进
行比较。对各种QCIF、CIF 格式的标准视频序列进行了测试，对比本论文的优化算法和原
H.264算法的编码结果。
为了获得较好的划分效果，保证编码性能，对于门限值TH1的选择非常重要。选择依据
是在运动补偿耗时和输出码流比特率，图像质量PSNR之间找到一个较好的平衡。
4.2 实验平台和测试条件
本论文对JVT 标准测试序列针对运动估计耗时，输出码流的比特率，图像质量(PSNR)
进行比较，实验结果列在表1。其中正数表示增加，负数表示减少。
表1 运动估计耗时，PSNR，码流速率比较QP=28
序列运动估计耗时改变 (%) PSNR 改（dB) 比特率改变 (%)
news(qcif) -72.992 -0.060 2.436
salesman(qcif) -74.448 -0.200 1.890
carphone(qcif) -67.226 -0.100 3.857
foreman(qcif) -55.938 -0.060 6.081
claire(qcif) -57.290 -0.140 1.256
container(qcif) -69.313 -0.060 0.037
mother&daughter(qcif) -84.840 -0.110 1.563
mobile(cif) -46.944 -0.040 2.836
tempete(cif) -48.234 -0.020 2.763
average -64.136 -0.088 2.524
对测试序列的按照QP 值进行分类，我们设计的算法比原来算法的运动估计耗时，对于
QP=28 的情况，最高可以减少84.8％ (mother and daughter 序列)，对于运动剧烈的图像序列
最小也可以提高46.9％ (mobile 序列)，平均可以节省64.1％的运动估计耗时。QP=32 和 QP
＝36 的情况，分别可以平均减少71.1％和75.9％的运动估计耗时。图4 显示了对比结果，
红色柱表示原算法运动估计耗时，绿色柱表示优化算法的耗时，数字1～9 顺序表示上述表
中的9 个标准视频序列。
通过实验可以发现，本论文提出的帧间预测宏块模式选择的优化算法，只要少量的计算
和比较就可以确定宏块模式，减少了大量不必要的计算，显著提高编码速度。而快速运动估
计的改进算法，动态的调整搜索范围和搜索操作，节省了搜索时间，使得运动估计速度进一
步提高。两种方法结合，在各种量化步长下，均可以显著减少运动估计的耗时，同时保持了
图像质量的基本不变和较小的编码速率增加。
1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
QP=28 ME time (
s) Sequences
JM algorithm
New algorithm
1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
QP=32
ME time (s)
Sequences
JM algorithm
New algorithm
(a) QP=28 (b) QP=32
http://www.paper.edu.cn
- 6 -
1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
QP=36
ME time (s)
Sequences
JM algorithm
New algorithm
(c) QP=36
图4 两种算法的运动估计耗时对比，图(a)为量化步长28，图(b)为量化步长32，图(c)为量化步长36
5. 结论
H.264 作为新一代的视频编解码标准，采用了成熟的技术，在追求更高的编码效率和简
洁的表达形式同时，也提供了非常好的视频质量，是当前最高效的视频压缩方法，具有广阔
的前景。但是由于计算复杂度的显著提高，限制了H.264 实时应用，很多算法都需要优化。
帧间预测技术是H.264 标准的一项关键技术，它可以有效地消除视频序列在时间上的相
关性，占据了很大一部分编码耗时。帧间预测算法的优化对H.264 编码耗时的减少有非常重
要的作用。本论文提出的一种有效的帧间预测模式选择算法和基于预测模式对原有的运动估
计算法进行的改进，大大减少了运动估计耗时。JM9.3 参考模型测试结果显示，我们优化后
的算法和原算法相比，对于不同的量化步长，可以平均减少70.4％的运动估计耗时，同时
PSNR 的平均减少低于0.11dB，可以忽略对图像质量的影响，而输出码流比特率的增加在
2.5％以内。
http://www.paper.edu.cn
- 7 -
参考文献
[1] ISO/IEC 14496-10 AVC) - JVT - F100．“Joint Video Specification (ITU-T Rec. H.264 | ISO/IEC 14496-10
AVC) - JVT - F100” [S]．Joint Video Team (JVT) of ISO/IEC MEPG & ITU-T VCEG. , Dec. 2002．
[2] Thomas Wiegand, Gary J. Sullivan, Gisle Bjontegaard, et al．“Overview of the H.264/AVC Video Coding
Standard” [J]．IEEE Trans. on Circuits and Systems for Video Technology, July 2003, Vol. 13, No. 7: pp. 560 -
576．
[3] T. Wiegand, M. Lightstone, T.G. Campbell, et al．“Rate-distortion optimized mode selection for very low bit
rate video coding and the emerging H.263 standard” [J]．IEEE Trans. Circuits System video Tech., Apr. 1996, Vol.
6, No. 2: pp. 182-190．
[4] D. Wu, S. Wu, K.P. Lim, et al．“Block Inter Mode Decision for Fast Encoding of H.264” [J]．Proc. of IEEE
International Conf. on Acoustics, Speech and Signal Processing, May 2004, Vol. 3: pp. iii-181 - 184．
[5] Andy Chang, Au, O. C. Yeung and Y. M ．“A Novel Approach to Fast Multi-block Motion Estimation for
H.264 Video Coding” [J]． Proc. of International Conf. on Multimedia and Expo., July 2003, Vol. 1: pp. i-105 -
108．
[6] Jeyun Lee and Byeungwoo Jeon．“Fast Mode Decision for H.264” [J]．Proc. of IEEE International Conf. on
Multimedia and Expo., June 2004, Vol. 2: pp. 27 - 30．
[7] K.P. Lim, S. Wu, S. Rahardja, et al．“Fast Inter Mode Selection” [Z]．Document I020, JVT 9th meeting, Sept.
2003．
[8] 段大高，崔岩松，邓中亮．“H.264 的帧间宏块模式选择算法” [J]．现代有线传输，2004 年3 月，第3
期：77-79．
[9] 楼剑，陆亮，虞露，等．“H.264 标准的特点及其改进研究” [J]．电视技术，2003 年6 月，第6 期：13-15．
[10] 智西湖，智艾娣．“264 编码的运动估计快速搜索算法” [J]．计算机应用，2004 年4 月，第4 期：72-74．
[11] 朱冬冬，戴琼海．“H.264 快速帧间编码模式选择算法” [J]．电子设计应用，2004 年4 月，第4 期：36-38．
[12] JVT Reference Software unofficial version JM9.3, http://bs.hhi.de/~suehring /tml/download．
Inter-frame Mode Selection and Fast Motion Estimation
Optimized Algorithm in H.264/AVC
Liang Rui
School of Telecommunication Engineering, Beijing University of Posts and Telecommunications,
Beijing (100876)
Abstract
H.264 is the newest international video coding standard developed by the joint ITU-T and ISO/IEC
standards organizations. Compared to the H.263 standard, H.264 standard can greatly increase the
coding performance in terms of the better picture quality and more than 50％ compression ratio
improvement. However the computation complexity increases dramatically which limits its real-time
application due to the implementation of multi-frame, multi-block motion estimation and rate-distortion
optimization. In order to reducing the complexity, in this paper, an efficient inter-frame motion
estimation mode selection algorithm together with an improved fast motion estimation algorithm was
proposed. The experiment results show that the new schemes are able to achieve a reduction of more
than 70% estimation time on average for different quantization step (QP), with a negligible average
PSNR loss of less than 0.11 dB and a mere 2.5% bit rate increase compared with the JM9.3 - H.264
reference software.
Keywords: H.264, Mode Selection, Motion Estimation

listream1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫