在使用C语言编程时,我们常用memcpy来复制内存数据,但很少有人会关注到memcpy怎么实现。最简单的memcpy功能实现如下:
void *low_memcpy(void *dst, const void *src, size_t length)
{
char *srcp = (void*)src;
char *dstp = (void*)dst;
char *tail = srcp + length;
while(srcp < tail) *dstp ++ = *srcp ++;
return dst;
}
一.数据对齐
这通常是一个初学者的实现,满足memcpy的功能,但性能非常低,因为while()每一次循环只能复制一个字节。如果要进一步的优化,就需要用到更多的知识,例如CPU位宽、数据对齐、时钟周期等等,学过计算机原理应该知道CPU字长、寄存器位宽等概念。现在常见的CPU通常为32/64位,今天我们以32位CPU来讲解。32位CPU字长为32BIT,即它的每个通用寄存器包含32个位,占4个字节,一个内存访问周期可以完成4个字节的读写,如果按照low_memcpy()函数的实现,每次while()循环只能复制1个字节,会浪费大量的内存访问周期。那我们能否按照32位CPU位宽,即4个字节为单位进行内存复制呢?CPU从内存取数据的过程,了解的人都知道,对齐存放的数据可加快CPU处理的速度,因为在同一个时钟周期内,CPU访问的数据总是按32位对齐访问的。例如CPU寄存器从内存0x20000001开始取32位数据需要两次访问内存:第一次取3字节0x20000001~0x20000003,第二次取1字节0x20000004。但是,如果从0x20000008开始取32位数据则可以一次性全部取出。
参考上图,如果需要按对齐方式将0x20000001到0x2000002C中总共48字节的数据复制到0x20000041、0x20000082,0x200000C3,0x20000104&#x