CSAPP LAB---perflab-handout性能优化

最新推荐文章于 2024-03-05 21:19:45 发布

VIP文章 The_V_

最新推荐文章于 2024-03-05 21:19:45 发布

阅读量1.6w

点赞数 11

分类专栏： csapp 文章标签：性能优化代码分析 csapp

本文链接：https://blog.csdn.net/the_v_/article/details/46842545

版权

LAB4

1. Naive_rotate

1.1原始代码分析

/*
 *naive_rotate - The naive baseline version of rotate
 */
char naive_rotate_descr[] ="naive_rotate: Naive baseline implementation";
void naive_rotate(int dim, pixel *src,pixel *dst)
{
   int i, j;
 
   for (i = 0; i < dim; i++)
         for(j = 0; j < dim; j++)
             dst[RIDX(dim-1-j, i, dim)] = src[RIDX(i, j,dim)];
}

一开始一直不明白RIDX是啥意思，后来在头文件defs.h中找到了宏定义：

#defineRIDX(i,j,n) ((i)*(n)+(j))

那么这段代码就很容易理解了。可以理解为一幅画的旋转，它将将所有的像素进行行列调位、导致整幅图画进行了90度旋转。

然而由于这串代码的步长过长，以至于cache的命中率非常低，所以总体运算效率不高。因此，我们考虑到cache的大小，应在存储的时候进行32个像素依次存储（列存储）。（32个像素排列是为了充分利用一级缓存(32KB), 采用分块策略, 每一个块大小为32）

这样可以做到cache友好、可以大幅度提高效率。

1.2优化尝试1

首先，我考虑分块的方式，进行优化。将整个程序分成4*4的小块，提高空间局部性

char rotate_descr[] = "rotate: Currentworking version";
void rotate(int dim, pixel *src, pixel*dst)
{
int i,j,i1,j1;
for(i1=0;i1<dim;i1+=4)
  for(j1=0;j1<dim;j1+=4)
     for(i=i1;i<i1+4;i++)
          for(j=j1;j<j1+4;j++)
             dst[RIDX(dim-1-j,i,dim)]=src[RIDX(i,j,dim)];
for(i1=0;i1<dim;i1+=32)
  for(j1=0;j1<dim;j1+=32)
     for(i=j1;i<i1+32;i+=1)
          for(j=j1;j<j1+32;j+=1)
                 dst[RIDX(dim-1-j,i,dim)]=  src[RIDX(i,j,dim)];
                 
}

测试的CPE

原来的代码平均加速比是4.8，而分块后代码的平均的加速比是7.0，尤其是在画的像素大小比较大的时候，在上图中dim为1024的时候加速比对比很明显！而在像素比较小的时候，反而减慢速度了（在dim=64的时候）。不过也很容易理解，当dim比较小的时候，整个画的元素都能装进高速缓存中，因此算法的优劣性就取决于算法的复杂度了。而分块的算法较原来的算法较复杂些，所以最后速度也慢了一点。

然后，我尝试将其分成8*8的小块。

发现，其速度提高并不是很明显。

最高应该是32*32.因为dim均为32的倍数，若比32大，则算法会出错。

1．2优化尝试2

采用循环展开

char rotate_descr[] = "rotate: Currentworking version,using pointer rather than computing address";
void rotate(int dim, pixel *src, pixel*dst)
{
    int i;
    int j;
    int tmp1=dim*dim;
    int tmp2=dim *31;
    int tmp3=tmp1-dim;
    int tmp4=tmp1+32;
    int tmp5=dim+31;
    dst+=tmp3; 
 
   for(i=0; i< dim; i+=32) 
   {         
        for(j=0;j<dim;j++)
      {       
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;  
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst&#

最低0.47元/天解锁文章

The_V_

关注

11
点赞
踩
29

收藏

觉得还不错? 一键收藏
1
评论
CSAPP LAB---perflab-handout性能优化

LAB41. Naive_rotate1.1原始代码分析/* *naive_rotate - The naive baseline version of rotate */char naive_rotate_descr[] ="naive_rotate: Naive baseline implementation";void naive_rotate(int dim, pixe
复制链接

扫一扫