谈谈memcpy函数的优化(纯C)

最新推荐文章于 2024-08-20 10:09:33 发布

sevek82

最新推荐文章于 2024-08-20 10:09:33 发布

阅读量6.5k

点赞数 3

分类专栏：性能优化文章标签：编程语言算法

本文链接：https://blog.csdn.net/sevek82/article/details/116014505

版权

本文探讨了C语言中memcpy函数的优化，分析了数据对齐和指令流水线对性能的影响。通过实例解释了如何通过调整内存访问方式和减少控制冒险来提高内存复制效率。并给出了优化后的代码示例。

摘要由CSDN通过智能技术生成

在使用C语言编程时，我们常用memcpy来复制内存数据，但很少有人会关注到memcpy怎么实现。最简单的memcpy功能实现如下：

void *low_memcpy(void *dst, const void *src, size_t length)
{
    char *srcp = (void*)src;
    char *dstp = (void*)dst;
    char *tail = srcp + length;
    
    while(srcp < tail) *dstp ++ = *srcp ++;
    
    return dst;
}

一.数据对齐

这通常是一个初学者的实现，满足memcpy的功能，但性能非常低，因为while()每一次循环只能复制一个字节。如果要进一步的优化，就需要用到更多的知识，例如CPU位宽、数据对齐、时钟周期等等，学过计算机原理应该知道CPU字长、寄存器位宽等概念。现在常见的CPU通常为32/64位，今天我们以32位CPU来讲解。32位CPU字长为32BIT，即它的每个通用寄存器包含32个位，占4个字节，一个内存访问周期可以完成4个字节的读写，如果按照low_memcpy()函数的实现，每次while()循环只能复制1个字节，会浪费大量的内存访问周期。那我们能否按照32位CPU位宽，即4个字节为单位进行内存复制呢？CPU从内存取数据的过程，了解的人都知道，对齐存放的数据可加快CPU处理的速度，因为在同一个时钟周期内，CPU访问的数据总是按32位对齐访问的。例如CPU寄存器从内存0x20000001开始取32位数据需要两次访问内存：第一次取3字节0x20000001~0x20000003，第二次取1字节0x20000004。但是，如果从0x20000008开始取32位数据则可以一次性全部取出。