LAB4
1. Naive_rotate
1.1原始代码分析
/*
*naive_rotate - The naive baseline version of rotate
*/
char naive_rotate_descr[] ="naive_rotate: Naive baseline implementation";
void naive_rotate(int dim, pixel *src,pixel *dst)
{
int i, j;
for (i = 0; i < dim; i++)
for(j = 0; j < dim; j++)
dst[RIDX(dim-1-j, i, dim)] = src[RIDX(i, j,dim)];
}
一开始一直不明白RIDX是啥意思,后来在头文件defs.h中找到了宏定义:
#defineRIDX(i,j,n) ((i)*(n)+(j))
那么这段代码就很容易理解了。可以理解为一幅画的旋转,它将将所有的像素进行行列调位、导致整幅图画进行了90度旋转。
然而由于这串代码的步长过长,以至于cache的命中率非常低,所以总体运算效率不高。因此,我们考虑到cache的大小,应在存储的时候进行32个像素依次存储(列存储)。(32个像素排列是为了充分利用一级缓存(32KB), 采用分块策略, 每一个块大小为32)
这样可以做到cache友好、可以大幅度提高效率。
1.2优化尝试1
首先,我考虑分块的方式,进行优化。将整个程序分成4*4的小块,提高空间局部性
char rotate_descr[] = "rotate: Currentworking version";
void rotate(int dim, pixel *src, pixel*dst)
{
int i,j,i1,j1;
for(i1=0;i1<dim;i1+=4)
for(j1=0;j1<dim;j1+=4)
for(i=i1;i<i1+4;i++)
for(j=j1;j<j1+4;j++)
dst[RIDX(dim-1-j,i,dim)]=src[RIDX(i,j,dim)];
for(i1=0;i1<dim;i1+=32)
for(j1=0;j1<dim;j1+=32)
for(i=j1;i<i1+32;i+=1)
for(j=j1;j<j1+32;j+=1)
dst[RIDX(dim-1-j,i,dim)]= src[RIDX(i,j,dim)];
}
测试的CPE
原来的代码平均加速比是4.8,而分块后代码的平均的加速比是7.0,尤其是在画的像素大小比较大的时候,在上图中dim为1024的时候加速比对比很明显!而在像素比较小的时候,反而减慢速度了(在dim=64的时候)。不过也很容易理解,当dim比较小的时候,整个画的元素都能装进高速缓存中,因此算法的优劣性就取决于算法的复杂度了。而分块的算法较原来的算法较复杂些,所以最后速度也慢了一点。
然后,我尝试将其分成8*8的小块。
发现,其速度提高并不是很明显。
最高应该是32*32.因为dim均为32的倍数,若比32大,则算法会出错。
1.2优化尝试2
采用循环展开
char rotate_descr[] = "rotate: Currentworking version,using pointer rather than computing address";
void rotate(int dim, pixel *src, pixel*dst)
{
int i;
int j;
int tmp1=dim*dim;
int tmp2=dim *31;
int tmp3=tmp1-dim;
int tmp4=tmp1+32;
int tmp5=dim+31;
dst+=tmp3;
for(i=0; i< dim; i+=32)
{
for(j=0;j<dim;j++)
{
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst=*src;
dst++;src+=dim;
*dst&#