Windows Sockets 2.0:使用完成端口高性能，可扩展性Winsock服务程序

最新推荐文章于 2022-09-28 10:15:36 发布

且行且探索

最新推荐文章于 2022-09-28 10:15:36 发布

阅读量1.7k

点赞数

翻译说明：

完成端口基本上公认为一种在windows服务平台上比较成熟和高效的IO方法，理解和编写程序都不是很困难。目前我正在进行这方面的实践，代码还没有完全调试和评价，只有这一篇拙劣的学习翻译文摘，见笑见笑。

翻译这个文章，是因为我近期在学习一些socket服务程序的编写中发现（注意，只是在学习，我本人在这个领域经验并不充足到可以撰文骗钱的地步:P），如果不是逼着自己把这个文章从头翻译一遍，我怀疑我是否能认真领会本文的内容 :PPP. 把这个文章贴出来，不是为了赚人气，而是因为水平确实有限，虽然整体上大差不差的翻译出来了，但是细节和用词上可能还是有很多问题。是希望大家能指出其中的翻译错误和理解谬误，互相交流和帮助。非常感谢。

本文翻译并没有通过原作者同意，仅用来在网络上学习和交流，加之翻译水平拙劣，所以请勿用于做商业用途。

windows 服务平台上比较成熟和高效的 IO 方法，理解和编写程序都不是很困难。目前我正在进行这方面的实践，代码还没有完全调试和评价，只有这一篇拙劣的学习翻译文摘，见笑见笑。

本文翻译并没有通过原作者同意，仅用来在网络上学习和交流，加之翻译水平拙劣，所以请勿用于做商业用途。

socket 服务程序的编写中发现（注意，只是在学习，我本人在这个领域经验并不充足到可以撰文骗钱的地步 :P ），如果不是逼着自己把这个文章从头翻译一遍，我怀疑我是否能认真领会本文的内容 :PPP. 把这个文章贴出来，不是为了赚人气，而是因为水平确实有限，虽然整体上大差不差的翻译出来了，但是细节和用词上可能还是有很多问题。是希望大家能指出其中的翻译错误和理解谬误，互相交流和帮助。非常感谢。

本文翻译并没有通过原作者同意，仅用来在网络上学习和交流，加之翻译水平拙劣，所以请勿用于做商业用途。

vcbear

2001.8

Windows Sockets 2.0:使用完成端口高性能，可扩展性Winsock服务程序

使用完成端口高性能，可扩展性 Winsock 服务程序

原作者：Anthony Jones 和Amol Deshpande

原文在http://msdn.microsoft.com/msdnmag/issues/1000/winsock/winsock.asp

Anthony Jones 和 Amol Deshpande

原文在http://msdn.microsoft.com/msdnmag/issues/1000/winsock/winsock.asp

APIs和扩展性
完成端口（Completion Ports ）
典型的Worker Thread 结构
Windows NT 和 Windows 2000 的Sockets体系结构
缓冲区由谁来管理
资源约束
关于接受连接
TransmitFile 和TransmitPackets函数
来实现一个服务方案
和扩展性
完成端口（Completion Ports ）
典型的Worker Thread 结构
Windows NT 和 Windows 2000 的Sockets体系结构
缓冲区由谁来管理
资源约束
关于接受连接
TransmitFile 和TransmitPackets函数
来实现一个服务方案
Completion Ports ）
典型的Worker Thread 结构
Windows NT 和 Windows 2000 的Sockets体系结构
缓冲区由谁来管理
资源约束
关于接受连接
TransmitFile 和TransmitPackets函数
来实现一个服务方案
Worker Thread 结构
Windows NT 和 Windows 2000 的Sockets体系结构
缓冲区由谁来管理
资源约束
关于接受连接
TransmitFile 和TransmitPackets函数
来实现一个服务方案
和 Windows 2000 的Sockets体系结构
缓冲区由谁来管理
资源约束
关于接受连接
TransmitFile 和TransmitPackets函数
来实现一个服务方案
TransmitFile 和TransmitPackets函数
来实现一个服务方案
和TransmitPackets函数
来实现一个服务方案

本文作者假定你已经熟悉Winsock API,TCP/IP ,Win32 API

Winsock API,TCP/IP ,Win32 API

摘要：编写一般的网络应用程序的难点在于程序的“可扩展性”。利用完成端口进行重叠I/O的技术在WindowsNT和WIndows2000上提供了真正的可扩展性。完成端口和Windows Socket2.0结合可以开发出支持大量连接的网络服务程序。

本文从讨论服务端的实现开始，然后讨论如何处理有系统资源约束和高要求的环境，以及在可扩展的服务程序开发的过程中会遇到的一般问题。

：编写一般的网络应用程序的难点在于程序的“可扩展性”。利用完成端口进行重叠 I/O 的技术在 WindowsNT 和 WIndows2000 上提供了真正的可扩展性。完成端口和 Windows Socket2.0 结合可以开发出支持大量连接的网络服务程序。

本文从讨论服务端的实现开始，然后讨论如何处理有系统资源约束和高要求的环境，以及在可扩展的服务程序开发的过程中会遇到的一般问题。

--------------------------------------------------------------------------------

正文：

开发网络程序从来都不是一件容易的事情，尽管只需要遵守很少的一些规则创建socket,发起连接，接受连接，发送和接受数据。真正的困难在于：让你的程序可以适应从单单一个连接到几千个连接。本文主要关注C/S结构的服务器端程序，因为一般来说，开发一个大容量，具可扩展性的winsock程序一般就是指服务程序。我们将讨论基于WindowsNT4.0和Windows 2000的代码，而不包括Windows3.x（什么时候的东西了），因为Winsock2的这一属性只在Windows NT4和最新版本上有效。

APIs和扩展性

和扩展性

win32重叠I/O(Overlapped I/O)机制允许发起一个操作，然后在操作完成之后接受到信息。对于那种需要很长时间才能完成的操作来说，重叠IO机制尤其有用，因为发起重叠操作的线程在重叠请求发出后就可以自由的做别的事情了。

在WinNT和Win2000上，提供的真正的可扩展的I/O模型就是使用完成端口（Completion Port）的重叠I/O.

重叠 I/O(Overlapped I/O) 机制允许发起一个操作，然后在操作完成之后接受到信息。对于那种需要很长时间才能完成的操作来说，重叠 IO 机制尤其有用，因为发起重叠操作的线程在重叠请求发出后就可以自由的做别的事情了。

在WinNT和Win2000上，提供的真正的可扩展的I/O模型就是使用完成端口（Completion Port）的重叠I/O.

WinNT 和 Win2000 上，提供的真正的可扩展的 I/O 模型就是使用完成端口（ Completion Port ）的重叠 I/O.

其实类似于WSAAsyncSelect和select函数的机制更容易兼容Unix，但是难以实现我们想要的“扩展性”。而且windows的完成端口机制在操作系统内部已经作了优化，提供了更高的效率。所以，我们选择完成端口开始我们的服务器程序的开发。

WSAAsyncSelect 和 select 函数的机制更容易兼容 Unix ，但是难以实现我们想要的“扩展性”。而且 windows 的完成端口机制在操作系统内部已经作了优化，提供了更高的效率。所以，我们选择完成端口开始我们的服务器程序的开发。

完成端口（Completion Ports ）

Completion Ports ）

其实可以把完成端口看成系统维护的一个队列，操作系统把重叠IO操作完成的事件通知放到该队列里，由于是暴露 “操作完成”的事件通知，所以命名为“完成端口”（COmpletion Ports）。一个socket被创建后，可以在任何时刻和一个完成端口联系起来。

一般来说，一个应用程序可以创建多个工作线程来处理完成端口上的通知事件。工作线程的数量依赖于程序的具体需要。但是在理想的情况下，应该对应一个CPU创建一个线程。因为在完成端口理想模型中，每个线程都可以从系统获得一个“原子”性的时间片，轮番运行并检查完成端口，线程的切换是额外的开销。在实际开发的时候，还要考虑这些线程是否牵涉到其他堵塞操作的情况。如果某线程进行堵塞操作，系统则将其挂起，让别的线程获得运行时间。因此，如果有这样的情况，可以多创建几个线程来尽量利用时间。

应用完成端口分两步走：

IO 操作完成的事件通知放到该队列里，由于是暴露 “操作完成”的事件通知，所以命名为“完成端口”（ COmpletion Ports ）。一个 socket 被创建后，可以在任何时刻和一个完成端口联系起来。

应用完成端口分两步走：

CPU 创建一个线程。因为在完成端口理想模型中，每个线程都可以从系统获得一个“原子”性的时间片，轮番运行并检查完成端口，线程的切换是额外的开销。在实际开发的时候，还要考虑这些线程是否牵涉到其他堵塞操作的情况。如果某线程进行堵塞操作，系统则将其挂起，让别的线程获得运行时间。因此，如果有这样的情况，可以多创建几个线程来尽量利用时间。

应用完成端口分两步走：

1创建完成端口句柄：

创建完成端口句柄：

HANDLE hIocp;

hIocp = CreateIoCompletionPort(

INVALID_HANDLE_VALUE,

NULL,

(ULONG_PTR)0,

0);

if (hIocp == NULL) {

// Error

}

注意在第一个参数（FileHandle）传入INVALID_FILE_HANDLE,第二个参数（ExistingCompletionPort）传入NULL,系统将创建一个新的完成端口句柄，没有任何IO句柄与其关联。

FileHandle ）传入 INVALID_FILE_HANDLE, 第二个参数（ ExistingCompletionPort ）传入 NULL, 系统将创建一个新的完成端口句柄，没有任何 IO 句柄与其关联。

2.完成端口创建成功后，在socket和完成端口之间建立关联。再次调用socket和完成端口之间建立关联。再次调用CreateIoCmpletionPort函数，这一次在第一个参数FileHandle传入创建的socket句柄，参数ExistingCompletionPort为已经创建的完成端口句柄。

以下代码创建了一个socket并把它和完成端口联系起来。

. 完成端口创建成功后，在socket和完成端口之间建立关联。再次调用 socket 和完成端口之间建立关联。再次调用 CreateIoCmpletionPort 函数，这一次在第一个参数 FileHandle 传入创建的 socket 句柄，参数 ExistingCompletionPort 为已经创建的完成端口句柄。

以下代码创建了一个socket并把它和完成端口联系起来。

socket 并把它和完成端口联系起来。

SOCKET s;

s = socket(AF_INET, SOCK_STREAM, 0);

if (s == INVALID_SOCKET) {

// Error

if (CreateIoCompletionPort((HANDLE)s,

hIocp,

(ULONG_PTR)0,

0) == NULL)

{

// Error

}

???

}

到此为止socket已经成功和完成端口相关联。在此socket上进行的重叠IO操作结果均使用完成端口发出通知。注意：CreateIoCompletionPort函数的第三个参数允许开发人员传入一个类型为ULONG_PTR的数据成员,我们把它称为完成键（Completion key），此数据成员可以设计为指向包含socket信息的一个结构体的一个指针，用来把相关的环境信息和socket联系起来，每次完成通知来到的同时，该环境信息也随着通知一起返回给开发人员。

完成端口创建以及与socket关联之后，就要创建一个或多个工作线程来处理完成通知，每个线程都可以循环的调用GetQueuedCompletionStatus函数，检查完成端口上的通知事件。

在举例说明一个典型的工作线程的之前，我们先讨论一下重叠IO的过程。当一个重叠IO被发起，一个Overlapped结构体的指针就要作为参数传递给系统。当操作完成，GetQueueCompletionStatus可以返回指向同一个Overlapp结构的指针。为了辨认和定位这个已完成的操作，开发人员最好定义自己的OVERLAPPED结构，以包含一些自己定义的关于操作本身的额外信息。比如：

socket 已经成功和完成端口相关联。在此 socket 上进行的重叠 IO 操作结果均使用完成端口发出通知。注意： CreateIoCompletionPort 函数的第三个参数允许开发人员传入一个类型为 ULONG_PTR 的数据成员 , 我们把它称为完成键（ Completion key ），此数据成员可以设计为指向包含 socket 信息的一个结构体的一个指针，用来把相关的环境信息和 socket 联系起来，每次完成通知来到的同时，该环境信息也随着通知一起返回给开发人员。

socket 关联之后，就要创建一个或多个工作线程来处理完成通知，每个线程都可以循环的调用 GetQueuedCompletionStatus 函数，检查完成端口上的通知事件。

IO 的过程。当一个重叠 IO 被发起，一个 Overlapped 结构体的指针就要作为参数传递给系统。当操作完成， GetQueueCompletionStatus 可以返回指向同一个 Overlapp 结构的指针。为了辨认和定位这个已完成的操作，开发人员最好定义自己的 OVERLAPPED 结构，以包含一些自己定义的关于操作本身的额外信息。比如：

typedef struct _OVERLAPPEDPLUS {

OVERLAPPED ol;

SOCKET s, sclient;

int OpCode;

WSABUF wbuf;

DWORD dwBytes, dwFlags;

// other useful information

} OVERLAPPEDPLUS;

此结构的第一个成员为默认的OVERLAPPED结构，第二，三个为本地服务socket和与该操作相关的客户socekt,第4个成员为操作类型，对于socket,现在定义的有

OVERLAPPED 结构，第二，三个为本地服务 socket 和与该操作相关的客户 socekt, 第 4 个成员为操作类型，对于 socket, 现在定义的有

#define OP_READ 0

#define OP_WRITE 1

#define OP_ACCEPT 2

3种。然后还有应用程序的socket缓冲区，操作数据量，标志位以及其他开发人员认为有用的信息。

当进行重叠IO操作，把OVERLAPPEDPLUS结构作为重叠IO的参数lpOverlapp传递（如WSASend,WASRecv,等函数，有一个lpOverlapped参数，要求传入一个OVERLAPP结构的指针）

当操作完成后，GetQueuedCompletionStatus函数返回一个LPOVERLAPPED 类型的指针，这个指针其实是指向开发人员定义的扩展OVERLAPPEDPLUS结构,包含着开发人员早先传入的全部信息。

注意： OVERLAPPED成员不一定要求是OVERLAPPEDPLUS扩展结构的一个成员，在获得OVERLAPPED指针之后，可以用CONTAINING_RECORD宏获得相应的扩展结构的指针。

：

种。然后还有应用程序的 socket 缓冲区，操作数据量，标志位以及其他开发人员认为有用的信息。

当进行重叠IO操作，把OVERLAPPEDPLUS结构作为重叠IO的参数lpOverlapp传递（如WSASend,WASRecv,等函数，有一个lpOverlapped参数，要求传入一个OVERLAPP结构的指针）

注意： OVERLAPPED成员不一定要求是OVERLAPPEDPLUS扩展结构的一个成员，在获得OVERLAPPED指针之后，可以用CONTAINING_RECORD宏获得相应的扩展结构的指针。

：

IO 操作，把 OVERLAPPEDPLUS 结构作为重叠 IO 的参数 lpOverlapp 传递（如 WSASend,WASRecv, 等函数，有一个 lpOverlapped 参数，要求传入一个 OVERLAPP 结构的指针）

注意： OVERLAPPED成员不一定要求是OVERLAPPEDPLUS扩展结构的一个成员，在获得OVERLAPPED指针之后，可以用CONTAINING_RECORD宏获得相应的扩展结构的指针。

：

GetQueuedCompletionStatus 函数返回一个 LPOVERLAPPED 类型的指针，这个指针其实是指向开发人员定义的扩展 OVERLAPPEDPLUS 结构 , 包含着开发人员早先传入的全部信息。

注意： OVERLAPPED成员不一定要求是OVERLAPPEDPLUS扩展结构的一个成员，在获得OVERLAPPED指针之后，可以用CONTAINING_RECORD宏获得相应的扩展结构的指针。

： OVERLAPPED 成员不一定要求是 OVERLAPPEDPLUS 扩展结构的一个成员，在获得 OVERLAPPED 指针之后，可以用 CONTAINING_RECORD 宏获得相应的扩展结构的指针。

典型的Worker Thread 结构

Worker Thread 结构

DWORD WINAPI WorkerThread(LPVOID lpParam)

{

ULONG_PTR *PerHandleKey;

OVERLAPPED *Overlap;

OVERLAPPEDPLUS *OverlapPlus,

*newolp;

DWORD dwBytesXfered;

while (1)

{

ret = GetQueuedCompletionStatus(

hIocp,

&dwBytesXfered,

(PULONG_PTR)&PerHandleKey,

&Overlap,

INFINITE);

if (ret == 0)

{

// Operation failed

continue;

}

OverlapPlus = CONTAINING_RECORD(Overlap, OVERLAPPEDPLUS, ol);

switch (OverlapPlus->OpCode)

{

case OP_ACCEPT:

// Client socket is contained in OverlapPlus.sclient

// Add client to completion port

CreateIoCompletionPort(

(HANDLE)OverlapPlus->sclient,

hIocp,

(ULONG_PTR)0,

0);

// Need a new OVERLAPPEDPLUS structure

// for the newly accepted socket. Perhaps

// keep a look aside list of free structures.

newolp = AllocateOverlappedPlus();

if (!newolp)

{

// Error

}

newolp->s = OverlapPlus->sclient;

newolp->OpCode = OP_READ;

// This function prepares the data to be sent

PrepareSendBuffer(&newolp->wbuf);

ret = WSASend(

newolp->s,

&newolp->wbuf,

&newolp->dwBytes,

&newolp.ol,

NULL);

if (ret == SOCKET_ERROR)

{

if (WSAGetLastError() != WSA_IO_PENDING)

{

// Error

}

// Put structure in look aside list for later use

FreeOverlappedPlus(OverlapPlus);

// Signal accept thread to issue another AcceptEx

SetEvent(hAcceptThread);

break;

case OP_READ:

// Process the data read

// ???

// Repost the read if necessary, reusing the same

// receive buffer as before

memset(&OverlapPlus->ol, 0, sizeof(OVERLAPPED));

ret = WSARecv(

OverlapPlus->s,

&OverlapPlus->wbuf,

&OverlapPlus->dwBytes,

&OverlapPlus->dwFlags,

&OverlapPlus->ol,

NULL);

if (ret == SOCKET_ERROR)

{

if (WSAGetLastError() != WSA_IO_PENDING)

{

// Error

}

break;

case OP_WRITE:

// Process the data sent, etc.

break;

} // switch

} // while

} // WorkerThread

--------------------------------------------------------------------------------

查看以上代码，注意如果Overlapped操作立刻失败（比如，返回SOCKET_ERROR或其他非WSA_IO_PENDING的错误），则没有任何完成通知时间会被放到完成端口队列里。反之，则一定有相应的通知时间被放到完成端口队列。

更完善的关于Winsock的完成端口机制，可以参考MSDN的Microsoft PlatFormSDK，那里有完成端口的例子。访问http://msdn.microsoft.com/library/techart/msdn_servrapp.htm.可以获得更多信息。

Overlapped 操作立刻失败（比如，返回 SOCKET_ERROR 或其他非 WSA_IO_PENDING 的错误），则没有任何完成通知时间会被放到完成端口队列里。反之，则一定有相应的通知时间被放到完成端口队列。

Winsock 的完成端口机制，可以参考 MSDN 的 Microsoft PlatFormSDK ，那里有完成端口的例子。访问 http://msdn.microsoft.com/library/techart/msdn_servrapp.htm . 可以获得更多信息。

Windows NT 和 Windows 2000 的Sockets体系结构

和 Windows 2000 的 Sockets 体系结构

学习一些WinNT和Win2000基本的Sockets体系结构有益与对扩展性规则的理解。下图表示当前版本Win2000的Winsock实现。应用程序不应该依赖于这里描述的一些底层细节（指drivers ,Dlls之类的），因为这些可能会在未来版本的操作系统中被改变。

WinNT 和 Win2000 基本的 Sockets 体系结构有益与对扩展性规则的理解。下图表示当前版本 Win2000 的 Winsock 实现。应用程序不应该依赖于这里描述的一些底层细节（指 drivers ,Dlls 之类的），因为这些可能会在未来版本的操作系统中被改变。

Socket 体系结构

体系结构

Winsock2.0规范支持多种协议以及相关的支持服务。这些用户模式服务支持可以基于其他现存服务提供者来扩展他们自己的功能。比如，一个代理层服务支持（LSP）可以把自己安装在现存的TCP/IP服务顶层。这样，代理服务就可以截取和重定向一个对底层功能的调用。

与其他操作系统不同的是，WinNT和Win2000的传输协议层并不直接给应用程序提供socket风格的接口，不接受应用程序的直接访问。而是实现了更多的通用API，称为传输驱动接口(Transport Driver Interface,TDI).这些API把WinNT的子系统从各种各样的网络编程接口中分离出来。然后，通过Winsock内核模式驱动提供了sockets方法（在AFD.SYS里实现）。这个驱动负责连接和缓冲管理，对应用程序提供socket风格的编程接口。AFD.SYS则通过TDI和传输协议驱动层交流数据。

规范支持多种协议以及相关的支持服务。这些用户模式服务支持可以基于其他现存服务提供者来扩展他们自己的功能。比如，一个代理层服务支持（ LSP ）可以把自己安装在现存的 TCP/IP 服务顶层。这样，代理服务就可以截取和重定向一个对底层功能的调用。

WinNT 和 Win2000 的传输协议层并不直接给应用程序提供 socket 风格的接口，不接受应用程序的直接访问。而是实现了更多的通用 API ，称为传输驱动接口 (Transport Driver Interface,TDI). 这些 API 把 WinNT 的子系统从各种各样的网络编程接口中分离出来。然后，通过 Winsock 内核模式驱动提供了 sockets 方法（在 AFD.SYS 里实现）。这个驱动负责连接和缓冲管理，对应用程序提供 socket 风格的编程接口。 AFD.SYS 则通过 TDI 和传输协议驱动层交流数据。

缓冲区由谁来管理

如上所说，对于使用socket接口和传输协议层交流的应用程序来说，AFD.SYS负责缓冲区的管理。也就是说，当一个程序调用send或WSASend函数发送数据的时候，数据被复制到AFD.SYS的内部缓冲里（大小根据SO_SNDBUF设置），然后send和WSASend立刻返回。之后数据由AFD.SYS负责发送到网络上，与应用程序无关。当然，如果应用程序希望发送比SO_SNDBUF设置的缓冲区还大的数据，WSASend函数将会被堵塞，直到所有数据均被发送完毕为止。

同样，当从远地客户端接受数据的时候，如果应用程序没有提交receive请求，而且线上数据没有超出SO_RCVBUF设置的缓冲大小，那么AFD.SYS就把网络上的数据复制到自己的内部缓冲保存。当应用程序调用recv或WSARecv函数的时候，数据即从AFD.SYS的缓冲复制到应用程序提供的缓冲区里。

在大多数情况下，这个体系工作的很好。尤其是应用程序使用一般的发送接受例程不牵涉使用Overlapped的时候。开发人员可以通过使用setsockopt API函数把SO_SNDBUF和SO_RCVBUF这两个设置的值改为0关闭AFD.SYS的内部缓冲。但是，这样做会带来一些后果：

比如，应用程序把SO_SNDBUF设为0,关闭了发送缓冲（指AFD.SYS里的缓冲），并发出一个同步堵塞式的发送操作，应用程序提供的数据缓冲区就会被内核锁定，send函数不会返回，直到连接的另一端收到整个缓冲区的数据为止。这貌似一种挺不错的方法，用来判断是否你的数据已经被对方全部收取。但实际上，这是很糟糕的。问题在于：网络层即使收到远端TCP的确认，也不能保证数据会被安全交到客户端应用程序那里，因为客户端可能发生“资源不足”等情况，而导致应用程序无法从AFD.SYS的内部缓冲复制得到数据。而更重大的问题是：由于堵塞，程序在一个线程里只能进行一次send操作，非常的没有效率。

如果关闭接受缓冲（设置SO_RCVBUF的值为0），也不能真正的提高效率。接受缓冲为0迫使接受的数据在比winsock内核层更底层的地方被缓冲，同样在调用recv的时候进行才进行缓冲复制，这样你关闭AFD缓冲的根本意图（避免缓冲复制）就落空了。关闭接收缓冲是没有必要的，只要应用程序经常有意识的在一个连接上调用重叠WSARecvs操作，这样就避免了AFD老是要缓冲大量的到来数据。