X264的时耗分析（详） and 程序优化技术

最新推荐文章于 2022-04-01 11:53:05 发布

fly1019

最新推荐文章于 2022-04-01 11:53:05 发布

阅读量5.3k

点赞数

分类专栏：嵌入式开发视频编码文章标签：优化编译器 events filter 算法性能优化

本文链接：https://blog.csdn.net/fly1019/article/details/1335913

版权

本文详细介绍了在Intel Pentium4环境下，使用X264编码器的性能测试，对比了Debug和Release版本的编码效率。通过Intel VTune Performance Analyzer分析，发现去块滤波器、量化与反量化、离散余弦变换与逆变换等环节的时耗，并指出运动估计和运动补偿是主要耗时部分。文章还探讨了程序性能优化的三个方面：算法结构优化、编译优化和程序优化，强调了编译器优化、汇编指令优化以及减少函数调用的重要性。

摘要由CSDN通过智能技术生成

测试环境
测试环境：Intel Pentium4 3.00GHz (双核cpu),开启超线程
内存: DDR 1.00G
操作系统: Windows sever 2003 Enterprise Edition
分析软件: Intel(R) VTune(TM) Performance Analyzer 8.0(评估版lic)
编译软件: VC71+nasm0.98
Bus Speed: 800MHz
测试程序: X264 20060506 编码器

1、Debug版本
编码参数:
X264 -fps -o foreman.264 forman.cif 352x288
编码400frames,编码效率:23fps左右(libx264 debug版本),35fps(libx264 release版本)，提高了10fps以上，比较可观

2、
编码参数:
X264 -fps --no-asm -o foreman.264 forman.cif 352x288
--no-asm，Disable all CPU optimizations即未使用mmx,mmxext, sse,sse2,3dNow,3dnow ext,altivec等汇编指令优化。
编码400frames，编码效率2.67fps(libx264 debug版本),12.67fps(libx264 release版本),提高了10fps

Clockticks per Instructions Retired (CPI)表示该程序段的平均执行一条指令所需的时钟周期数,CPI越大表示该程序段调用的浮点数操作,乘法，除法，I/O处理，系统调用或文

件访问等代价昂贵的操作较多。
Instructions Retired events, 表示执行的指令数,越大表示该模块调用的较多.
Clockticks events 则表示该模块所消耗的时钟周期数,一般Clockticks events = Instructions Retired events * Clockticks per Instructions Retired (CPI),越大表示该模块消耗的时间越多,后面的Clockticks %则表示该模块的在所有程序中的时耗百分比.

这里有一点需要注意:(还是举例吧),例如要分析视频编码中去块滤波器算法/程序的时耗,并不是一个x264_frame_deblocking_filter函数的时间消耗就是所有x264编解码过程中的时间消耗,由于x264_frame_deblocking_filter调用deblck_edge,x264_clip3(该函数也被其他函数所调用)函数,而deblock_edge下又调用x264_deblock_v8_luma_mmxext, x264_deblock_h_luma_mmxext,x_264_deblock_h_chroma_mmxext, deblock_luma_intra_c, x264_deblock_v_chroma_mmxext（这些函数通过指针重定义的方式以适应于不同的硬件平台，比如Intel,AMD的CPU采用不同的指令系统，其实Mplayer,FFMPEG,T264等软件都采用类似的重定义方式,已达到一个软件使用与不同构架/平台，如arm,powerpc,x86等）等函数。那么这里如果统计去块滤波器的算法的时间消耗百分比，就需要将该函数及其所有调用的子函数的时间消耗都计算在内，x264_deblock_****都是唯一被deblock_edge调用，但对于x264_clip3，并不仅仅是去块滤波器部分调用，那么就只能部分计算在去块滤波器之内，至于部分是多少要根据个函数的调用次数，这里不确定。

相关x264时耗分析数据后面的表格。deblock占4.3%左右，quant+dequant占3.3%左右，DCT+IDCT占1.1%左右，主要是运动估计和运动补偿，ME中大量的sad/satd的计算，MC中的六阶滤波器tap_filter是主要时耗，具体我没有太细统计将近20%左右，x264中由于采用了算法优化，程序优化及mmx,sse,sse2等指令优化，将原本消耗较大的去块滤波器等都有了较大程度地优化。

这里再讨论一下程序性能优化技术，程序性能优化可以大致从3个部分考虑。
1、算法结构优化，实现同样的应用功能可采用多种不同的算法和方法，比如H.264种的运动估计全搜索和快速运动估计算法，实现的编码效率基本一致，但是处理时间可以节省10~20倍，所以需要选择高效的算法。还有递归算法非递归化，递归算法使得程序结构清晰，可读性高，但却需要执行大量的过程调用，堆栈保存等，运行效率低下。

2、编译优化，现在很多编译器都实现了较强的代码优化功能，多数编译器都基于数据流分析以实现别名分析（通过变量重命名来消除数据相关，提高流水线的执行效率），常数折叠，公共子表达式消除、冗余代码删除，循环逆转和循环展开等与体系结构无关的优化，例如GNU gcc就是个很好的编译工具。还有借用并行程序设计技术，进行相关性分析，并通过相应技术是程序具有更好的局部性以提高Cashe命中率。对于GCC中采用-O -O2 -O3 -O4等选项选择针对速度/面积等性能优化,另外debug版本由于程序中加入较多的debug参数,影响程序效率,上面x264的debug和release运行效率的对比可见一斑.编译优化属于静态优化，由编译器自动完成，但是编译器很难得到程序的语义信息，算法流程等信息。所以需要我们手工编程优化以最大程度提高程序运行效率

3、程序优化，包括a)使用inline函数，很多编译器支持inline关键字，减少函数调用开销却增加了代码量。b)针对程序运行平台，如x86(Intel)，Xscale，ARM，DSP等不同构架，可采用相应的汇编优化，将主要时耗部分/循环调用等，进行汇编指令优化MMX,SSE,WiMMX,ARM/Thumb指令,DSP汇编等，或者采用专用的库函数,如针对Intel CPU/Xscale构架的嵌入式系统（PXA255,PXA270等）可使用IPP/GPP库，提高程序效率。c)对于DSP系统，由于有多个并行处理单元，编译器会并行优化，所以需要尽量减少频繁小循环跳转，将循环展开，同时减少循环或内层循环也可以提高CPU的流线效率，尽量不断流。d)在Switch语句中根据发生频率排序case语句，编译器对于switch语句将生成if-else-if的嵌套代码，按概率排序可提高效率（FPGA/CPLD等逻辑器件中，采用VHDL语言描述的switch是生成多个逻辑器件，并且完全并行的）。e)减少函数调用参数. f)减少耗时的浮点数操作，除法操作等降低CPI

Size	Function	Clockticks per Instructions Retired (CPI)	Instructions Retired events	Clockticks events	Clockticks %	Source File
4917	refine_subpel	3.050938338	1119000000	3414000000	6.582219909	f:/x264-060506/x264-060506/encoder/me.c
176	x264_mc_chroma_mmxext	1.463709677	2232000000	3267000000	6.298802707
21502	x264_me_search_ref	2.515923567	942000000	2370000000	4.569379374	f:/x264-060506/x264-060506/encoder/me.c
880	x264_pixel_satd_8x8_sse2	1.43551797	1419000000	2037000000	3.927352652
99	RTC_CheckStackVars	3.563157895	570000000	2031000000	3.915784603
3296	x264_pixel_satd_16x16_sse2	1.54047619	1260000000	1941000000	3.742263867
237	get_ref_mmx	1.725925926	810000000	1398000000	2.695355428	f:/x264-060506/x264-060506/common/i386/mc-c.c
1183	block_residual_write_cabac	3.15862069	435000000	1374000000	2.649083232	f:/x264-060506/x264-060506/encoder/cabac.c
6480	x264_macroblock_analyse	24.05555556	54000000	1299000000	2.504482619	f:/x264-060506/x264-060506/encoder/analyse.c
272	x264_pixel_satd_4x4_mmxext	1.229850746	1005000000	1236000000	2.383018104
80	x264_pixel_avg_w16_mmxext	2.096045198	531000000	1113000000	2.145873099
232	x264_mb_decimate_score	1.354085603	771000000	1044000000	2.012840534	f:/x264-060506/x264-060506/encoder/macroblock.c
64	x264_pixel_avg_w8_mmxext	1.756906077	543000000	954000000	1.839319799
2413	x264_frame_deblocking_filter	1.703910615	537000000	915000000	1.76412748	f:/x264-060506/x264-060506/common/frame.c
2491	x264_macroblock_cache_save	2.152173913	414000000	891000000	1.717855284	f:/x264-060506/x264-060506/common/macroblock.c
656	x264_center_filter_mmxext	1.211864407	708000000	858000000	1.654231014
146	quant_4x4	2.989247312	279000000	834000000	1.607958818	f:/x264-060506/x264-060506/encoder/macroblock.c
5930	x264_macroblock_cache_load	2.090225564	399000000	834000000	1.607958818	f:/x264-060506/x264-060506/common/macroblock.c
206	x264_cabac_encode_renorm	2.125984252	381000000	810000000	1.561686622	f:/x264-060506/x264-060506/common/cabac.c
83	array_non_zero_count	1.191964286	672000000	801000000	1.544334548	f:/x264-060506/x264-060506/encoder/macroblock.h
96	memset	9.464285714	84000000	795000000	1.532766499	F:/VS70Builds/3077/vc/crtbld/crt/src/intel/memset.asm
363	predict_16x16_p	1.095435685	723000000	792000000	1.526982474	f:/x264-060506/x264-060506/common/predict.c
184	x264_cabac_encode_decision	2.371428571	315000000	747000000	1.440222107	f:/x264-060506/x264-060506/common/cabac.c
37	_RTC_CheckEsp	1.707142857	420000000	717000000	1.382381861
3693	x264_macroblock_encode	2.890243902	246000000	711000000	1.370813812	f:/x264-060506/x264-060506/encoder/macroblock.c
47	x264_clip_uint8	1.317365269	501000000	660000000	1.272485395	f:/x264-060506/x264-060506/common/clip1.h
304	x264_quant_4x4_core15_mmx	1.674796748	369000000	618000000	1.191509052
2091	x264_mb_analyse_intra	1.844036697	327000000	603000000	1.162588929	f:/x264-060506/x264-060506/encoder/analyse.c
1680	x264_pixel_satd_8x16_sse2	1.144508671	519000000	594000000	1.145236856
1696	x264_pixel_satd_16x8_sse2	1.449612403	387000000	561000000	1.081612586
164	motion_compensation_chroma_mmxext	1.459677419	372000000	543000000	1.046908439	f:/x264-060506/x264-060506/common/mc.c
328	deblock_edge	1.594059406	303000000	483000000	0.931227948	f:/x264-060506/x264-060506/common/frame.c
363	predict_8x8c_p	1.453703704	324000000	471000000	0.90809185	f:/x264-060506/x264-060506/common/predict.c
176	x264_macroblock_cache_mv	1.662650602