C语言自带memcpy已优化的很好了,通过拷贝一幅图像,测得耗时为1.8ms,经过很多其他方法代换,都无法达到如此速度,为了提速,经过摸索,终于找到更快一点的方法。经测得耗时为1.35ms。
内存拷贝程序
void MemCopy(void *pDst, void *pSrc, DWORD dwSize)//顺序拷贝
{
_asm
{
mov esi, pSrc; //传递源指针
mov edi, pDst; //传递目标指针
mov ebx, dwSize;//ebx 字节计数
shr ebx, 7; //除 128 (8 * 128bit registers)
L1:
movdqu xmm0, 0[ESI]; //从内存移动数据到寄存器
movdqu xmm1, 16[ESI];
movdqu xmm2, 32[ESI];
movdqu xmm3, 48[ESI];
movdqu xmm4, 64[ESI];
movdqu xmm5, 80[ESI];
movdqu xmm6, 96[ESI];
movdqu xmm7, 112[ESI];
movntdq 0[EDI], xmm0; //从寄存器移动数据到内存
movntdq 16[EDI], xmm1;
movntdq 32[EDI], xmm2;
movntdq 48[EDI], xmm3;
movntdq 64[EDI], xmm4;
movntdq 80[EDI], xmm5;
movntdq 96[EDI], xmm6;
movntdq 112[EDI], xmm7;
add esi, 128;
add edi, 128;
dec ebx; //减1
jnz L1; //不为0循环
mov ecx, dwSize;
and ecx, 127;
rep movsb; //余数循环
}
}
用完了8个多媒体寄存器,每个寄存器每次传输16个字节,用到了内存拷贝极限。
在vs2017的C++调试通过。