memcpy 内存优化方法

最新推荐文章于 2024-07-30 15:31:23 发布

自由技艺

最新推荐文章于 2024-07-30 15:31:23 发布

阅读量1.3k

点赞数 1

分类专栏：性能优化

本文链接：https://blog.csdn.net/qq_28133013/article/details/115488251

版权

性能优化专栏收录该内容

8 篇文章 1 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何在P4平台上优化内存拷贝操作，通过汇编语言实现和特定指令集，提升内存带宽利用率。文章详细分析了多种memcpy的实现，包括简单的rep movsb、movsd、循环展开、MMX技术以及利用MOVNTQ指令进行写合并模式优化，以达到性能提升的目的。实验表明，优化后的代码在某些情况下可实现175%-200%的性能提升。

摘要由CSDN通过智能技术生成

内存拷贝的优化方法
http://www.blogcn.com/blog/cool/main.asp?uid=flier_lu&id=1577430
http://www.blogcn.com/blog/cool/main.asp?uid=flier_lu&id=1577440

在复杂的底层网络程序中，内存拷贝、字符串比较和搜索操作很容易成为性能瓶颈所在。编译器自带的此类函数虽然做了一些通用性的优化工作，但因为在使用指令集方面受到兼容性的约束，远远没有达到最大限度利用硬件能力的地步。而通过针对特定硬件平台的优化，可以大大提高此类操作的性能。下面我将以P4平台下内存拷贝操作为例，根据AMD提供的一份优化文档中的例子，简要介绍一下如何通过特定指令集，优化内存带宽的使用。虽然因为硬件限制没有达到AMD文档中所说memcpy函数300%的性能提升，但在我机器上实测也有%175-%200的明显性能提升（此数据可能根据机器情况不同）。

Optimizing Memory Bandwidth from AMD

按照众所周知的“摩尔”定律，CPU的运算速度每18个月翻一翻，但与此同时内存和外存（硬盘）的速度并无法达到同步增长。这就造成高速CPU与相对低速的内存和外设之间的不同步发展，成为很多程序的瓶颈所在。而如何最大限度提升对现有硬件的利用程度，是算法以下层面优化的主要途径。对内存拷贝操作来说，了解和合理使用Cache是最关键的一点