CSAPP LAB---perflab-handout性能优化

最新推荐文章于 2021-08-12 21:08:45 发布

The_V_

最新推荐文章于 2021-08-12 21:08:45 发布

阅读量1.7w

点赞数 11

分类专栏： csapp 文章标签：性能优化代码分析 csapp

本文链接：https://blog.csdn.net/The_V_/article/details/46842545

版权

本文详细记录了CSAPP LAB4的性能优化过程，包括Naive_rotate的优化尝试，如32像素分块、循环展开和矩形分块优化，以及smooth函数的优化，如减少函数调用、查表法和针对不同情况的讨论。此外，还揭示了一个实验漏洞，通过预先填充黑色来提高效率。实验总结了代码优化的几种方法，如减少函数调用、提前计算、循环展开、并行运算和提高缓存利用率。

摘要由CSDN通过智能技术生成

LAB4

1. Naive_rotate

1.1原始代码分析

/*
 *naive_rotate - The naive baseline version of rotate
 */
char naive_rotate_descr[] ="naive_rotate: Naive baseline implementation";
void naive_rotate(int dim, pixel *src,pixel *dst)
{
   int i, j;
 
   for (i = 0; i < dim; i++)
         for(j = 0; j < dim; j++)
             dst[RIDX(dim-1-j, i, dim)] = src[RIDX(i, j,dim)];
}

一开始一直不明白RIDX是啥意思，后来在头文件defs.h中找到了宏定义：

#defineRIDX(i,j,n) ((i)*(n)+(j))

那么这段代码就很容易理解了。可以理解为一幅画的旋转，它将将所有的像素进行行列调位、导致整幅图画进行了90度旋转。

然而由于这串代码的步长过长，以至于cache的命中率非常低，所以总体运算效率不高。因此，我们考虑到cache的大小，应在存储的时候进行32个像素依次存储（列存储）。（32个像素排列是为了充分利用一级缓存(32KB), 采用分块策略, 每一个块大小为32）

这样可以做到cache友好、可以大幅度提高效率。

1.2优化尝试1

首先，我考虑分块的方式，进行优化。将整个程序分成4*4的小块，提高空间局部性

char rotate_descr[] = "rotate: Currentworking version";
void rotate(int dim, pixel *src, pixel*dst)
{
int i,j,i1,j1;
for(i1=0;i1<dim;i1+=4)
  for(j1=0;j1<dim;j1+=4)
     for(i=i1;i<i1+4;i++)
          for(j=j1;j<j1+4;j++)
             dst[RIDX(dim-1-j,i,dim)]=src[RIDX(i,j,dim)];
for(i1=0;i1<dim;i1+=32)
  for(j1=0;j1<dim;j1+=32)
     for(i=j1;i<i1+32;i+=1)
          for(j=j1;j<j1+32;j+=1)
                 dst[RIDX(dim-1-j,i,dim)]=  src[RIDX(i,j,dim)];
                 
}

测试的CPE

原来的代码平均加速比是4.8，而分块后代码的平均的加速比是7.0，尤其是在画的像素大小比较大的时候，在上图中dim为1024的时候加速比对比很明显！而在像素比较小的时候，反而减慢速度了（在dim=64的时候）。不过也很容易理解，当dim比较小的时候，整个画的元素都能装进高速缓存中，因此算法的优劣性就取决于算法的复杂度了。而分块的算法较原来的算法较复杂些，所以最后速度也慢了一点。

然后，我尝试将其分成8*8的小块。

发现，其速度提高并不是很明显。

最高应该是32*32.因为dim均为32的倍数，若比32大，则算法会出错。

1．2优化尝试2

采用循环展开

char rotate_descr[] = "rotate: Currentworking version,using pointer rather than computing address";
void rotate(int dim, pixel *src, pixel*dst)
{
    int i;
    int j;
    int tmp1=dim*dim;
    int tmp2=dim *31;
    int tmp3=tmp1-dim;
    int tmp4=tmp1+32;
    int tmp5=dim+31;
    dst+=tmp3; 
 
   for(i=0; i< dim; i+=32) 
   {         
        for(j=0;j<dim;j++)
      {       
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;  
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst&#