原文地址:https://blog.csdn.net/chenyq991/article/details/79047741
最近做一个项目,对性能要求很高,为了尽可能提高性能,网上找了很多性能优化相关的帖子,进行了很多的思考和尝试,今天抽空把近期的一些学习和心得做一个总结。由于这个项目只是提供一个模块,颗粒度较小,不涉及多线程、同步异步、数据库等,本文主要从以下几个方面进行分析:
1、优化代码框架
个人觉得代码架构对性能的影响至关重要,就好骨架之于人,所以我把这个放在第一点。举个简单的例子:
优化前:
void main()
{
while (isDone)
{
DoSomething1();
DoSomething2();
}
}
void DoSomething1()
{
....;
}
void DoSomething2()
{
....;
if (...)
{
isDone = True;
}
}
优化后:
void main()
{
DoSomething1();
}
void DoSomething1()
{
while (isDone)
{
....;
DoSomething2();
}
}
void DoSomething2()
{
....;
if (...)
{
isDone = True;
}
}
优化前频繁的调用DoSomething1()和DoSomething2(),需要被调用函数频繁的入栈出栈,开销很大,可以合理的优化代码结构,减少函数调用层次和嵌套深度,甚至有些函数可以使用内联或define来定义,以减少函数调用所占时间。当然不能破坏程序的美观和可读性,要跟性能之间做一个平衡。
2、简化函数
- 充分理解函数所要实现的功能,用最简单的方式去实现,去掉冗余的逻辑。
- 优化循环,有些操作可以放到循环外做,不必每次都做
3、选取合适的算法和数据结构
选取合适的数据结构很重要,通常使用指针比数组要快很多,对于频繁插入删除的操作,使用链表要比使用数组快很多。一般使用指针比使用数组索引快。
使用数组:
for (int i = 0; i < len; i++)
{
A = array[i];
}
使用指针:
p = array;
for (int i = 0; i < len; i++)
{
A = *p++;
}
4、减少运算强度
1. 尽量使用位操作代替计算
a = a * 8;
a = a / 8;
a = a % 8;
修改成
a = a << 3;
a = a >> 3;
a = a & 0x7;
2. 公共子表达式可以提前计算
c = a + b;
d = a + b + e;
f = a + b + g;
优化成:
c = a + b;
d = c + e;
f = c + g;
3. 通过查表来换取时间
4. 前缀改成后缀, i++改成++i
5、利用操作系统和CPU本身的优势
1. 充分利用操作系统的位宽,尤其是拷贝等操作上,但这个地方要注意字节对齐
char *a, *b;
...
for ( ; ; )
{
*a = *b;
a++;
b++;
}
假设操作系统64位,可优化成
for ( ; ; )
{
(long long *)a = (long long *)b;
a = a + 8;
b = b + 8;
}
2. 充分利于CPU的流水
利用CPU的流水来做并行计算,比如:
for (int i = 0; i < len; i++)
{
sum += a[i];
}
优化后:
for (int i = 0; i < len; i = i + 4)
{
sum1 += a[i];
sum2 += a[i + 1];
sum3 += a[i + 2];
sum4 += a[i + 3];
}
sum + sum1 + sum2 + sum3 + sum4;
6、采用编译选项-O2
开启编译选项-O2,不仅会对代码的分支、常量、表达式进行优化,还会尝试更多寄存器和指令级的优化,编译期间会占用更多的内存和编译时间,但对于运行效率会有很大提升。当然也会带来一些麻烦,它会改变代码结构,比如对对分支的合并和消除,对公用子表达式的消除,对循环内load/store操作的替换和更改等,都会使目标代码的执行顺序变得面目全非,导致调试信息严重不足。