程序性能优化探讨（2）——循环展开优化详议

最新推荐文章于 2024-04-24 21:04:21 发布

coreyspomu

最新推荐文章于 2024-04-24 21:04:21 发布

阅读量3.5k

点赞数 1

分类专栏：程序性能优化

本文链接：https://blog.csdn.net/u013471946/article/details/40680965

版权

本文深入探讨了程序性能优化中的循环展开技术，通过实例展示了如何通过循环展开减少函数调用和提高运算效率。文章通过对比不同循环展开策略（如2、3、4、5、6、7次展开）对浮点乘法和加法的影响，以及在整数运算中的表现，揭示了优化的效果。实验表明，循环展开结合编译器选项如-O2和-funroll-loops可以进一步提升性能，甚至达到接近理论最优的运算周期数。然而，在某些情况下，如在多核CPU上，rdtsc指令的精确性成为问题，需要特殊处理以确保测试的稳定性。

摘要由CSDN通过智能技术生成

本章的上一节原打算开始讨论优化实例，不曾想被测试工具绊住脚，还好几经折腾已变得可靠，工欲善其事后句内啥，经过思考发现，关于rdtsc指令获得程序模块段运行周期数的方法，还有个小细节需要注意。现在已流行双核四核八核CPU，而rdtsc指令的设计是针对单核的CPU，多核运行时就很难保证精确性。因此我把运行linux的虚拟机设置“处理器”从2改成1，这样模拟原来的单核机，测试效果更佳稳定。

一、测试模块搭建

为了方便测试数据的扩充，教材里使用了结构体来搭建数据结构：

#ifdef FLOAT
typedef float data_t;
#else
#ifdef DOUBLE
typedef double data_t;
#else
#ifdef EXTEND
typedef long double data_t;
#else
typedef int data_t;
#endif /* EXTEND */
#endif /* DOUBLE */
#endif /* FLOAT */

#ifdef PROD
#define IDENT 1
#define OPER *
#else
#ifdef DIV
#define OPER /
#define IDENT 1
#define OPER_NAME "Divide"
#else
#define IDENT 0
#define OPER +

上面的宏定义，咋看有些晕，其实很简单，无非就是用ifdef和else的组合，来确定预编译时的data_t和PROD，他们分别是我们要测试的类型和运算。在运行main函数之前，如果有#define double，那条件判断就会让typedef double data_t;有效，那之后用data_t定义的类型全都是double了。还有PROD也类似，根据应用时的宏定义可以进行加减乘除的运算切换，对不起没有减，哈哈。

typedef struct {
int len;
data_t *data;
} vec_rec, *vec_ptr;

教材里要构建向量组，咋一看还以为用链表实现，再一看，根本没有链表指针，实际上这里是在堆里面分配好制定长度的空间，然后用数组的方式进行调用：

vec_ptr new_vec(int len)
{
    /* allocate header structure */
    vec_ptr result = (vec_ptr) malloc(sizeof(vec_rec));
    if (!result)
        return NULL; /* Couldn't allocate storage */
    result->len = len;

    if (len > 0) {
        data_t *data = (data_t *)calloc(len, sizeof(data_t));
        if (!data) {
            free((void *) result);
            return NULL; /* Couldn't allocate storage */
        }
        result->data = data;
    }
    else
        result->data = NULL;
    return result;
}

new_vec函数功能是初始化向量组，输入参数len其实就是向量的长度，或者说向量元素的个数，用malloc分配结构体单元空间，然后再用calloc分配len长度的data_t空间，如果len是10，data_t是int，那就分配是个整型变量空间，也就是10*sizeof(int)字节，然后再用结构体里的data指针指向这个空间。其中有很多异常判断代码。

int get_vec_element(vec_ptr v, int index, data_t *dest)
{
    if (index < 0 || index >= v->len)
        return 0;
    *dest = v->data[index];
    return 1;
}

int vec_length(vec_ptr v)
{
return v->len;
}

上面两个函数意图很明显，获得指定向量组的某个元素值，以及获取指定向量组的长度（元素个数）。有了前面的铺垫，接下来我们给出第一个测试函数：

double combine1(vec_ptr v, data_t *dest)
{
    int i = 0;
    double Start;
    *dest = IDENT;
    start_counter();
    for (; i < vec_length(v); i++) {
        data_t val;
        get_vec_element(v, i, &val);
        *dest = *dest OPER val;
    }
    Start = get_counter();
    return Start;
}

代码的意图很明显，遍历向量组的每个元素，进行累计的OPER操作。从宏定义可获知，当定义为加法时，*dest初始化为0；定义乘除法时定义为1。为了使得测试数据更可靠，我对代码进行部分修改。要消除初始化的周期开销，我把start_counter();get_counter();放在循环的前后，这样只计算循环本身消耗的CPU周期数，把i的初始化放在了定义处。这个修改从combine1到combine6实施。

二、浮点乘法性能测试

接下来是调用，我们做浮点乘法，索性把6个版本的函数全部放出来：

#define DOUBLE
#define PROD

int main(int argc, char ** argv)
{
        double Start, End;
        data_t a;
        vec_ptr v;
        data_t *dest = &a;
        v = new_vec(atoi(argv[1]));
        Start = combine1(v, dest);