CSAPP LAB---perflab-handout性能优化

LAB4

1. Naive_rotate

1.1原始代码分析

/*
 *naive_rotate - The naive baseline version of rotate
 */
char naive_rotate_descr[] ="naive_rotate: Naive baseline implementation";
void naive_rotate(int dim, pixel *src,pixel *dst)
{
   int i, j;
 
   for (i = 0; i < dim; i++)
         for(j = 0; j < dim; j++)
             dst[RIDX(dim-1-j, i, dim)] = src[RIDX(i, j,dim)];
}


一开始一直不明白RIDX是啥意思,后来在头文件defs.h中找到了宏定义:

#defineRIDX(i,j,n) ((i)*(n)+(j))

那么这段代码就很容易理解了。可以理解为一幅画的旋转,它将将所有的像素进行行列调位、导致整幅图画进行了90度旋转。

然而由于这串代码的步长过长,以至于cache的命中率非常低,所以总体运算效率不高。因此,我们考虑到cache的大小,应在存储的时候进行32个像素依次存储(列存储)。(32个像素排列是为了充分利用一级缓存(32KB), 采用分块策略, 每一个块大小为32)

这样可以做到cache友好、可以大幅度提高效率。

 

  1.2优化尝试1

 首先,我考虑分块的方式,进行优化。将整个程序分成4*4的小块,提高空间局部性

char rotate_descr[] = "rotate: Currentworking version";
void rotate(int dim, pixel *src, pixel*dst)
{
int i,j,i1,j1;
for(i1=0;i1<dim;i1+=4)
  for(j1=0;j1<dim;j1+=4)
     for(i=i1;i<i1+4;i++)
          for(j=j1;j<j1+4;j++)
             dst[RIDX(dim-1-j,i,dim)]=src[RIDX(i,j,dim)];
for(i1=0;i1<dim;i1+=32)
  for(j1=0;j1<dim;j1+=32)
     for(i=j1;i<i1+32;i+=1)
          for(j=j1;j<j1+32;j+=1)
                 dst[RIDX(dim-1-j,i,dim)]=  src[RIDX(i,j,dim)];
                 
}


测试的CPE

原来的代码平均加速比是4.8,而分块后代码的平均的加速比是7.0,尤其是在画的像素大小比较大的时候,在上图中dim为1024的时候加速比对比很明显!而在像素比较小的时候,反而减慢速度了(在dim=64的时候)。不过也很容易理解,当dim比较小的时候,整个画的元素都能装进高速缓存中,因此算法的优劣性就取决于算法的复杂度了。而分块的算法较原来的算法较复杂些,所以最后速度也慢了一点。

然后,我尝试将其分成8*8的小块。

发现,其速度提高并不是很明显。

最高应该是32*32.因为dim均为32的倍数,若比32大,则算法会出错。

 

1.2优化尝试2

采用循环展开

char rotate_descr[] = "rotate: Currentworking version,using pointer rather than computing address";
void rotate(int dim, pixel *src, pixel*dst)
{
    int i;
    int j;
    int tmp1=dim*dim;
    int tmp2=dim *31;
    int tmp3=tmp1-dim;
    int tmp4=tmp1+32;
    int tmp5=dim+31;
    dst+=tmp3; 
 
   for(i=0; i< dim; i+=32) 
   {         
        for(j=0;j<dim;j++)
      {       
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;  
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst=*src;
         dst++;src+=dim;
         *dst&#
  • 11
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值