众所周知ntohs用来将本机字节序列转换为网络字节序列,如何写一个高性能的实现呢?
先写一个能正常工作的:
代码如下
short myntohs(short s)
{
BYTE high=(BYTE)s>>8;
BYTE lower=(BYTE)s;
s=lower<<8+high;
return s;
}
int main(int argc, char* argv[])
{
printf("Hello World!/n");
short n=255;
int nMax=10000000;
DWORD dwBegin=GetTickCount();
for(int i=0;i
myntohs(255);
printf("%d/n",GetTickCount()-dwBegin);
dwBegin=GetTickCount();
for(i=0;i
ntohs(255);
printf("%d/n",GetTickCount()-dwBegin);
return 0;
}
执行后与系统自带的对比性能,运行时间输出如下:
219
62
性能相差很多呀,看来得用汇编写个改进版本
short myntohs1(short s)
{
__asm
{
movzx eax,word ptr [ebp+8]
mov ch,al
shr ax,8
or ah,ch
mov s,ax
}
return s;
}
运行结果如下:
188
62
性能有所改进,但与系统实现比较依然很慢,并没有显著改进性能,看来还得改进,应该是prolog代码和epilog代码所导致的性能不佳,
只好动用naked的了,将函数属性设置为naked。
short _declspec(naked) myntohs1(short s)
{
__asm
{
push ebp
mov ebp,esp
movzx eax,word ptr [ebp+8]
mov ch,al
shr ax,8
or ah,ch
pop ebp
ret
}
}
运行比较
47
62
性能比系统的更好呀,my god :)
以上运行结果数据都是在debug版本下得出来的,release版本情况好像差不多,以上三种方式性能数据如下:
32
31
31
可见编译器的优化功能非常强大。