【转】H.264软件解码器在PXA270平台上的优化

最新推荐文章于 2021-06-02 19:25:41 发布

Audio_Wang

最新推荐文章于 2021-06-02 19:25:41 发布

阅读量1.7k

点赞数

分类专栏： Audio/Video Codec 文章标签： h.264 优化平台算法测试 video

Audio/Video Codec 专栏收录该内容

18 篇文章 2 订阅

订阅专栏

（原文中暂无图片，所以下面的图片显示不出来。在DSP上优化H264的文章有很多，读者可以自己google）

罗嵘，何苦
(清华大学电子工程系，北京100084)
2009-04-24

　　摘要： 研究了嵌入式系统中H.264 Baseline软件解码器设计和优化的问题，提出了四种有效的优化方法，并在PXA270平台上进行了测试。测试结果显示，综合使用提出的四种方法，H.264软件解码器在PXA270（520MHz）上运行时帧率可以达到22f/s（CIF格式）和80f/s（QCIF格式）。
　　关键词： H.264；软件解码器；PXA270

　　视频编解码标准H.264是由国际电联ITU的视频编码专家组VCEG（Video Coding Expert Group）和国际标准化组织ISO的活动图像专家组MPEG（Motion Picture Expert Group）共同组成的联合视频组JVT（Joint Video Team）开发的视频编解码标准，也被称为高级视频编码MPEG-4 AVC（Advanced Video Coding）或MPEG-4 Part10。H.264解码器^[1]的主要模块有运动补偿、帧间预测、去块效应滤波、反变换、帧内预测、重建等。
　　PXA270嵌入式处理器内部包括一个XScale内核[2]（兼容ARM9指令集），运行频率最高可以达到624MHz；一个无线多媒体指令扩展WMMX(Wireless Multi-Media Extension)协处理器，能够支持多媒体运算指令；还包括一系列外部接口控制器、总线控制器等。
　　文献[3]对H.264解码器中的帧间预测、去块效应滤波、反变换、帧内预测、重建等模块采用了WMMX优化，可以使其相对性能提高92%～100%。文献[4]在PXA270平台上设计了一个AVCORE多媒体函数库，H.264解码帧率可以达到约50f/s（QCIF格式）。文献[5]则在Xscale处理器上利用WMMX技术对多种解码器进行了优化，取得了较好的相对优化效果。但是，这些方法的优化效果有限，只利用PXA270的WMMX功能进行了优化，不能充分利用PXA270处理器的特点。
　　为了提高H.264软件解码器在PXA270处理器上的性能，本文研究了PXA270处理器和H.264软件解码器的特点，并针对其特点进行了多方面的优化。优化方法主要包括WMMX并行计算优化、多项式计算优化、系统资源优化和滤波算法优化四种。
1 H.264解码器优化方法
1.1 WMMX并行计算优化
　　在PXA270平台上，可以利用PXA270处理器内部的WMMX硬件支持对一个宏块内像素点的乘/加法操作进行展开处理，一次执行4/8条乘/加法，同时处理多个像素点。
　　WMMX软件编程模型部分包括寄存器堆、矢量化的执行部件和接口部件三部分^[2]。WMMX寄存器堆的位宽为64bit，包括16个SIMD寄存器、8个状态和控制寄存器。
　　WMMX矢量化的执行部件，包括一个执行单元、一个乘累加单元、一个移位和序列改变单元。利用这些硬件单元，SIMD寄存器可以被组织成字节(8bit)、半字(16bit)、字(32bit)、双字(64bit)结构，实现8/4/2/1个数据的并行运算。
　　利用WMMX的并行计算功能，H.264软件解码器中的很多部分可以被并行化，从而提高计算效率。例如：在H.264的运动估计算法中，进行插值操作的部分算法代码为：
　　
　　进行并行计算优化时，可以对上述代码中的内层循环部分进行展开：
　　　　

　　利用ARM汇编语言改写上面的代码，调用WMMX的硬件，可以使得该内层循环中的四个结构相同的运算同时进行，这样就大大提高了速度。在优化过程中，对H.264模块中的IDCT、IQUANT和插值部分的计算使用了WMMX并行计算优化。
1.2 多项式计算优化
　　利用WMMX硬件并行计算优化，比较适用于各个像素点使用相同计算方法的情况。而对于那些每一个像素点都需要用不同的表达式进行计算的情况，就需要采用另外的并行优化思路。对于那些不便于进行循环展开的代码部分，可以尝试对其多项式计算进行优化，使用提取公共因子、合并同类项的方法，提高运算速度。
　　例如，对于如下的表达式：
　　　

　　上面的表达式中公因子合并之后，加/减法和乘法运算的总数由原来的16个变成12个，因而提高了速度。在H.264的软件解码器中，运动补偿和帧内预测部分就存在着类似的代码，可以使用提取公因式的方法来进行优化。文献[6]已经证明提取公因式进行计算优化的方法属于NP-hard问题，本文给出了一个比较简单的近似优化算法，其优化流程为：用多项式组中的每一个多项式生成一个集合S_i（i=1，2，…K，K是多项式的个数），其元素s_ij（j=1，2，…k，k是子式的个数）是该多项式的子式；设定初始搜索次数n=0，N为预先设定的搜索次数上限；计算C，C为整个多项式组为优化前总的计算次数。
　　while n　　选定其中一个多项式的子式s_ij；
　　计算：整个多项式组可以减少的计算次数c；
　　if c　　　　C=c；
　　　　记录下子式sij；
　　end
n=n+1；
end
　　本文提出的算法得到的结果可能并不是最优的，但该方法能降低计算量，还可以应用于除H.264解码器以外的场合，并且适用于多种架构的处理器。在优化过程中，对H.264解码器中的帧内预测模块使用了多项式优化算法。
1.3 PXA270系统资源优化
　　本文中H.264软件解码器最终运行在PXA270处理器上。该处理器具有多种频率可调组件，其内部还具有256KB片内SRAM，可以用于显示图像存储。PXA270片内系统总线频率在高速模式下可以达到208MHz^[7]，并且LCD控制器的频率可以调整，具有直接显示YUV格式图像的特性。充分利用好这些特性，可以大大改善H.264软件解码器在平台上的运行效率。在H.264软件解码器的代码中，需要对数据进行大量的存储操作，为了提高存储速度，在运行时可以动态地将系统总线频率调整为高速模式，同时对SDRAM和Flash等存储器件进行访问速度的调整，以保证性能要求。
　　针对H.264软件解码器进行的PXA270系统资源优化流程如下：
if H.264软件解码器运行
　　保存处理器和总线当前配置；
　　将处理器内核置为超频频率上；
　　将系统总线频率设置为高速模式；
　　为解码器分配PXA270片内SRAM作为缓存（受操作系统限制）；
end
　　if H.264软件解码器运行结束
　　恢复处理器和总线配置；
end
　　系统级的优化需要对处理器的频率等关键资源进行调整，这可以通过PXA270处理器的时钟管理模块实现。
1.4 滤波算法优化
　　在H.264编解码算法中，对滤波器算法的规定具有一定的灵活性[8]，可以在不违反标准的情况下使用自己的滤波方法。在改进的滤波器中，通常采用的方法是改变子宏块（Sub-Macroblock）边界的滤波顺序，从而提高存储效率和数据的复用性^[9]。本文设计了一个优化的滤波器算法，达到了一定的效果。
　　在H.264标准中，规定的标准解码算法是：对于一个16×16的宏块（图像格式为YUV4:2:0），其中各个4×4的子宏块边界的滤波顺序如图1的标号1～48所示。
　　在用软件实现滤波算法时，一帧图像数据的存储以二维数组的方式进行。例如，对于CIF（352×288）格式的一帧图像，其亮度信号存储在一个Y[352][288]数组中。
　　在计算机和多数嵌入式系统的内存中，内存地址是线性的，因此一个16×16的亮度宏块(划分为16个4×4大小的子宏块）中每个4×4的子宏块分别被编号为1～16。1～4子宏块的第一行数据在内存中的位置为M1，第二、三、四行数据在内存M2、M3、M4。M1～M4之间的位置分别被其他16×16的宏块所占据。5～8子宏块在内存中的位置为M5～M8，因此在形式上相邻的两个子宏块1和5，在内存中的位置可能差得很远。
　　在计算机系统中，为了充分利用数据的空间、时间相关性，会在访问内存中的一个数据时，把该数据相邻区域的一块数据都加载到缓存中。例如，当程序访问子宏块1的第一行数据时，处理器会自动把整个M1块加载到缓存中，即第2~4个子宏块的第一行也被加载到缓存中。由于缓存的大小非常有限，内存中有很多地址都可以映射到缓存中的同一个地址处。例如，当程序访问子宏块5的第一行时，M5被加载到缓存中，就有可能覆盖掉原来M1在缓存中位置。而对于M1~M3来说，它们在内存中的位置靠得比较近，因此可以被映射到缓存中的不同区域，不会相互覆盖。
　　对于图1中的滤波方案，会存在缓存未命中（Cache Miss）的问题。按照图1中的滤波顺序，每对一个边界做滤波都有可能覆盖掉前一次加载的数据，这样会增加对内存的访问次数，降低速度。为了改进这一点，本文提出了如图2所示的新的边界滤波顺序。

　　新方案在多数情况下可以利用前一次已经加载到Cache的数据进行操作。例如：在对编号为2、3、4的边界进行滤波时，可以利用对1边界进行滤波时已经加载的数据。这样可以提高去宏块效应滤波器的速度。
　　对于YUV4:2:0格式的图像，传统的滤波算法在处理一个16×16的亮度宏块和两个8×8的色度宏块时，可能在32条边界（共48条边界）处发生数据缓存未命中，这些边界分别是1～24、25～37、41、43、45、47(参见图1)。而改进的滤波算法则可能在11条边界处发生数据缓存未命中，这些边界分别是：1、5、9、17、25、33、35、37、41、43、45（参见图2）。由此可见，改进的滤波算法提高了内存访问效率。
2 仿真和测试结果
2.1 使用WMMX优化后的测试结果
　　使用WMMX汇编语言对H.264软件解码器进行并行计算优化后得到的效果如表1。

　　对比表1中的结果可以看出，WMMX计算优化的效果最为明显，对帧率的改善可以达到3f/s～5f/s。WMMX技术也是PXA27x系列处理器的一个亮点，这一功能使其可与一般DSP的计算能力相匹敌。
2.2 多项式计算优化的方针和测试结果
　　为了显示多项式优化的效果，首先在ARM（PXA270处理器是兼容ARM体系结构的)仿真环境下对单个函数测试，编译器采用ARM公司出品的ADS 1.2，在测试过程中，C/C++编译器的参数设置为：-O2-O time -g+ -cpu XXXXX(具体的ARM处理器内核类型，如ARM946E-S)。
　　在测试过程中，没有修改编译器的设置，为了证明算法的普适性，在多种ARM处理器内核上进行了仿真。
　　仿真时选用的函数是：predict_4x4_mode_3；predict_4x4_mode_4；predict_4x4_mode_5；predict_4x4_mode_6；predict_4x4_mode_7；predict_4x4_mode_8。
　　这些函数对应帧内预测的第3～8种模式，具体算法可以参照H.264的标准文档。下面给出函数predict_
4x4_mode_3进行优化后的简单示例。predict_4x4_mode_3在进行优化前的代码为：
predict_4x4_mode_3
　　Begin

　　Y0=(a0+a2+(a1<<1)+2)>>2；
　　Y1=Y4=(a1+a3+(a2<<1)+2)>>2；
　　Y2=Y5=Y8=(a2+a4+(a3<<1)+2)>>2；
　　Y3=Y6=Y9=Y12=(a3+a5+(a4<<1)+2)>>2；
　　Y7=Y10=Y13=(a4+a6+(a5<<1)+2)>>2；
　　Y11=Y14=(a5+a7+(a6<<1)+2)>>2；
　　Y15=(a6+(a7<<1)+a7+2)>>2；
end
　　进行优化后的代码如下：
predict_4x4_mode_3
Begin
　　T0=a0+a1；T1=a1+a2+2；Y0=(T0+T1)>>2；
　　T0=a2+a3；Y1=Y4=(T0+T1)>>2；
　　T1=a3+a4+2；Y2=Y5=Y8=(T0+T1)>>2；
　　T0=a4+a5；Y3=Y6=Y9=Y12=(T0+T1)>>2；
　　T1=a5+a6+2；Y7=Y10=Y13=(T0+T1)>>2；
　　T0=a6+a7；Y11=Y14=(T0+T1)>>2；
　　T1=a7+a7+2；Y15=(T0+T1)>>2；
end
　　考虑到程序表示方面的简明性，在优化的程序中使用了一些临时变量。从程序中涉及的多项式计算的表达式来看，在未优化程序中，使用了21次加法和14次移位运算；而在优化后的程序中，使用了19次加法和7次移位运算。对其他几个函数进行优化后，也有类似的结果。仿真器得到的结果请参照表2和表3。

　　从仿真结果可以看出，多项式计算优化算法应用于某些特定函数上，可以缩短时间和缩减代码体积。不过，多项式计算优化算法在H.264软件解码器中的应用是有限的，对整个软件解码器性能提高的贡献不大。
2.3 优化测试结果
　　对PXA270系统资源进行优化后，再运行H.264软件解码器时的测试结果比较见表4。通过系统资源优化，可以使H.264软件解码器性能提高2f/s～3f/s。这表明系统资源优化是提高H.264解码器性能比较有效的一种方法。从表4可以看出，对去宏块效应滤波器优化后，解码器整体的性能的提高不是很大，这主要是由于滤波运算在测试视频中所占的比重不是很高引起的。编码时视频流所采用的量化器的量化程度比较低，所得的图像比较平滑，因此需要进行的滤波运算也少。

　　将上面提到的各种优化方法综合应用到H.264软件解码器中，取得的效果相当可观。联合使用各种优化方法，可以使得各个方法间相互补充，获得比单独使用更好的优化效果，如表4中测试组一和测试组二所示。对H.264软件解码器进行联合优化以后，性能的提高达到40%左右。
　　通过在实际平台上的测试可知，PXA270系统资源优化和WMMX并行计算优化的贡献最大，而其他两种方法的贡献则要小得多。但是也必须看到，效果好的方法其专用性也会很强，如WMMX并行计算需要有专门硬件的支持。去宏块效应滤波器算法优化和多项式计算优化两种方法虽然在PXA270平台上对H.264软件解码器的优化效果不佳，但是它们对PXA270内部的特定资源依赖很小，通用性较强，可以用于其他平台或应用实例中，具有一定的使用价值。

参考文献
[1] WIEGAND T，SULLIVAN G，LUTHRA A.Draft ITU-T recommendation and final draft international standard of joint video specification(ITU-T Rec.H.264 | ISO/IEC 14496-10 AVC)，Joint Video Team(JVT) of ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6) 8th Meeting：Geneva, Switzerland，2003，5.
[2] Intel Corporation.Intel wireless MMXTM technology developer guide，2002.
[3] PAVER N C，KHAN M H，ALDRICH B C，et al.Accelerating mobile video applications using Intel@ wireless
MMXTM technology.IEEE workshop on signal processing systems，2003：207-212.
[4] http：//www.cyansoft.com.cn/products.php?display=1&select=1，2007-5-23.
[5] PRASAD A，MITTAL A，KUMAR M，et al.Optimization and comparison of computational complexities of standard compliant video decoders on SIMD processors.ICASSP 2007：II-93-II-96.
[6] HOSANGADI A，FALLAH F，KASTNER R.Factoring and eliminating common subexpressions in polynomial expressions.ICCAD，2004：169-174.
[7] Intel Corporation.Intel PXA27x processor family developer′s　manual，2004.
[8] LIST P，JOCH A，LAINEMA J，et al.Adaptive deblocking filter，IEEE transactions on circuits and systems for video technology，2003.
[9] 牛晓雷，戴琼海，刘烨斌.H.264/AVC解码器解块滤波的结构优化.计算机工程与应用，2005：104-106.

Audio_Wang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【转】H.264软件解码器在PXA270平台上的优化

（原文中暂无图片，所以下面的图片显示不出来。在DSP上优化H264的文章有很多，读者可以自己google）罗嵘，何苦(清华大学电子工程系，北京100084)2009-04-24　　摘要：研究了嵌入式系统中H.264 Baseline软件解码器设计和优化的问题，提出了四种有效的优化方法，并在PXA270平台上进行了测试。测试结果显示，综合使用提出的四种方法，H.264软件
复制链接

扫一扫