嵌入式程序设计中的优化问题

最新推荐文章于 2023-05-16 22:45:58 发布

iteye_18451

最新推荐文章于 2023-05-16 22:45:58 发布

阅读量159

点赞数

文章标签：嵌入式数据结构与算法

转载自: http://www.eeworld.com.cn/mcu/2012/0331/article_8260_2.html

代码优化
代码优化，就是采用汇编语言或更精简的程序代码来代替原有的代码，使编译后的程序运行效率更高。编译器可以自动完成程序段和代码块范围内的优化，但很难获取程序语义信息、算法流程和程序运行状态信息，因而需要编程人员进行手工优化。以下是一些常用的优化技术和技巧。

(1)代码替换

使用周期短的指令代替周期长的指令，以降低运算的强度。
①减少除法运算。用关系运算符两边乘除数避免除法操作，还有一些除法和取模的运算可以用位操作来代替。因为位操作指令只需一个指令周期，而“／”运算则需要调用子程序，代码长，执行慢。例如：
优化前if((a／b)>c)和a=a／4
优化后if(a>(b*c))和a=a>>2
②减少乘方运算。例如：
优化前a=pow(a，3．0)
优化后a=a*a*a
③使用白加、自减指令。例如：
优化前a=a+1、a=a-l
优化后a++、a--或inc、dec
④尽量使用小的数据类型。在所定义的变量满足使用要求的条件下，优先使用顺序为：字符型(char)>整型(im)>长整型(long int)>浮点型(float)。

对除法来说，使用无符号数比有符号数会有更高的效率。在实际调用中，尽量减少数据类型的强制转换；少用浮点运算，如果运算的结果能够控制在误差之内，则可用长整型代替浮点型。

(2)全局变量与局部变量
少用全局变量，多用局部变量。全局变量是放在数据存储器中的，定义了全局变量，MCU就少了一个可以利用的数据存储器空间，太多的全局变量，会导致编译器无足够的内存分配；而局部变量则大多定位于MCU内部的寄存器中。在绝大多数的MCU中，使用寄存器的操作速度比数据存储器快，指令也更灵活，有利于生成质量更高的代码，而且局部变量所占用的寄存器和数据存储器在不同的模块中可以重复利用。

(3)使用寄存器变量
当一个变量被频繁读／写时，需要反复访问内存，花费大量的存取时间。为了提高访问效率，可以使用CPU寄存器变量，不需要访问内存，直接进行读／写。循环次数较多的循环控制变量及循环体内反复使用的变量均可定义为寄存器变量，而循环计数是应用寄存器变量的最佳选择。只有局部自动变量和形参才可以定义为寄存器变量。因为寄存器变量属于动态存储方式，因此凡需要采用静态存储方式的变量都不能定义为寄存器变量。寄存器变量的说明符是register。下面是一个采用寄存器变量的例子：

(4)减少或避免执行耗时的操作
应用程序的大量运行时问通常花费在关键程序模块，关键模块往往包含循环或嵌套循环。减少循环中耗时的操作，可以提高程序的执行速度。常见的耗时操作有：输入/输出操作、文件访问、图形界面操作和系统调用等。其中，如果无法避免文件的读／写，那么对文件的访问将是影响程序运行速度的一大因素。提高文件访问速度的方法有两种：一种是采用内存映射文件；另一种是使用内存缓存。

(5)switch语句用法的优化
编程时，对case值按照可能性排序，将最可能发生的情况放在第一个，最不可能的情况放在最后一个，可以提高switch语句块的执行速度。

(6)循环体的优化
循环体是程序设计和优化的重点，对于一些不需要循环变量参加运算的模块，可以把它放到循环的外面。对于次数固定的循环体，for循环比while循环效率更高，减计数循环比增计数循环速度快。例如：

实际运行时，每次循环需要在循环体外加两条指令：一条减法指令(减少循环计数值)和一条条件分支指令。这些指令称为“循环开销”。在ARM处理器上，减法指令需要1个周期，条件分支指令需要3个周期，这样每个循环另加了4个周期的开销。可以采用循环展开的方法来提高循环运行的速度，即：重复循环主题多次，并按同样的比例减少循环次数来减小循环的开销，以增加代码尺寸。来换取程序的运行速度。。

(7)函数调用
高效的调用函数，尽量限制使用函数的参数个数，不要超过4个。ARM调用时，4个以下的形参通过寄存器传递，第5个以上的形参通过存储器栈传递。如果有更多的参数调用，则可将相关的参数组织在一个结构体内，用传递结构体指针来代替参数。

(8)内联函数和内嵌汇编
对性能影响大的重要函数可以使用关键字_inline内联，会省去调用函数的开销，负面影响是增加了代码尺寸。程序中对时间要求苛刻的部分可以用内嵌汇编来编写，通常可以带来速度上的显著提高。

(9)查表代替计算
在程序中尽量不进行非常复杂的运算，如浮点数的开方。对于这些消耗时间和资源的运算，可以采用空间换取时间的方法。预先将函数值计算出来，置于程序存储区中，以后程序运行时直接查表即可，减小了程序执行过程中重复计算的工作量。

(10)使用针对硬件优化的函数库
Intel公司为XScale处理器设计的GPP(Graphics Performance Primitives library)／IPP(Integrated Perform-ance Primitives library)库，针对多媒体处理、图形处理和数值运算的一些典型操作和算法进行了手工优化，可以很好地发挥XScale硬件的计算潜能，达到很高的执行效率。

(11)利用硬件特性
为了提高程序的运行效率，要充分利用硬件特性来减小其运行开销，例如减少中断次数、利用DMA传输方式等。

CPU对各种存储器的访问速度排序依次为：CPU内部RAM>外部同步RAM>外部异步RAM>Flash／ROM。对于已经烧录在 Flash或ROM中的程序代码，如果让CPU直接从中读取代码执行，运行速度较慢，则可在系统启动后将Flash或ROM中的目标代码拷贝至RAM中后执行，以提高程序的运行速度。

4 结论
嵌入式程序的性能优化与软件的开发周期、开发成本、软件的可读性之闻通常存在矛盾。要权衡利弊，作出折中的选择。将算法和数据结构优化作为首选优化技术；然后根据功能、性能差异和投资预算等因素选择高效的编译器、系统运行库和图形库；使用性能监测工具侦测占主要运行时间的程序热点，采用代码优化手段对其进行优化；最后使用高效的编译器进行编译优化，从而得到高质量的代码。