[230527] 深入解析 TCP 三次握手
想写这个博客是因为,看一篇解析 IO 复用的文章,讲 connect 和 accept 阻塞的时候,忽然想到了面试可以不仅仅讲三次挥手的表象,还可以结合 socket 讲讲内核里面发生了什么,回答得更充分一些。
1 TCP 三次握手的过程
- 第一次:客户端发送含同步标志位和序列号为 P 的报文到服务器,然后客户端进入 SYN_SEND 状态
- 第二次:服务器收到第一个报文后,会发送含确认标志位和同步标志位,且确认号为 P + 1,序列号为 Q 的报文到客户端,然后服务器进入 SYN_RECV 状态
- 第三次:客户端收到第二个报文后,会发送含确认标志位并且确认号为 Q + 1 的报文到服务器,客户端进入 ESTABLISHED 状态,服务器收到第三个报文后,也进入 ESTABLISHED 状态
2 TCP 三次握手与 socket 的联系
TCP 三次握手主要是发生在服务端的 listen 系统调用和客户端的 connect 系统调用。
-
服务器执行 listen 时,内核会为每一个处于 listen 状态的 socket 分配两个队列:半连接队列(SYN 队列)和全连接队列(accept 队列),处于三次握手过程中的连接会在这两个队列中暂存信息
-
两个队列的工作过程:服务端收到客户端发起的 SYN 请求后,内核会把该连接存储到半连接队列,并向客户端响应 SYN+ACK。接着客户端会返回 ACK,服务端收到第三次握手的 ACK 后,内核会把连接从半连接队列移除,然后创建新的完全的连接,并将其添加到 accept 队列,等待进程调用 accept 函数时把连接取出来。
-
客户端没有半连接队列和全连接队列,但有一个全局hash,可以通过它实现自连接或 TCP 同时打开。
-
客户端执行 connect 时,会自己的连接信息放入到这个全局hash表中,然后发出 SYN 请求。
一般面试说到这里就可以了吧,后面可以等面试官接着问。
3 TCP 半连接队列和全连接队列
虽然都叫两个队列都叫队列,但其实全连接队列(icsk_accept_queue)是个链表,而半连接队列(syn_table)是个哈希表。
为什么半连接队列要设置成哈希表?
半连接队列中的连接都是不完整连接,当第三次握手的 ACK 报文到达以后,需要在半连接队列中找到对应的半连接,使用哈希表可以实现 O(1) 的时间复杂度。
4 自问
4.1 问题
在单线程服务器程序中,如果有多个客户端向服务器请求连接,会发生什么?
服务端监听本机 1234 端口,并通过一个 while 循环来不断地调用 accept,从全连接队列中取得已建立的 TCP 连接。代码如下:
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <unistd.h>
#include <arpa/inet.h>
#include <sys/socket.h>
#include <netinet/in.h>
int main()
{
// 创建套接字
int serv_sock = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);
// 通过 socket() 函数创建了一个套接字 serv_sock
// socket() 函数确定了套接字的各种属性
// 参数 AF_INET 表示使用 IPv4 地址,SOCK_STREAM 表示使用面向连接的套接字,IPPROTO_TCP 表示使用 TCP 协议。
// 定义 sockaddr_in 结构体:serv_addr
struct sockaddr_in serv_addr;
memset(&serv_addr, 0, sizeof(serv_addr)); // 每个字节都用0填充
serv_addr.sin_family = AF_INET; // 使用IPv4地址
serv_addr.sin_addr.s_addr = inet_addr("127.0.0.1"); // 具体的IP地址
serv_addr.sin_port = htons(1234); // 端口
// 通过 bind() 函数将套接字 serv_sock 与特定的 IP 地址和端口绑定
// IP 地址和端口都保存在 sockaddr_in 结构体中
bind(serv_sock, (struct sockaddr *)&serv_addr, sizeof(serv_addr));
// 进入被动监听状态,等待用户发起请求
// 被动监听,是指套接字一直处于“睡眠”中,直到客户端发起请求才会被“唤醒”
listen(serv_sock, 20);
while (true)
{
// 接收客户端请求
struct sockaddr_in clnt_addr;
socklen_t clnt_addr_size = sizeof(clnt_addr);
int clnt_sock = accept(serv_sock, (struct sockaddr *)&clnt_addr, &clnt_addr_size);
// accept() 函数用来接收客户端的请求。
// 程序一旦执行到 accept() 就会被阻塞(暂停运行),直到客户端发起请求。
// 向客户端发送数据
char str[] = "Hello World!";
write(clnt_sock, str, sizeof(str));
// write() 函数用来向套接字文件中写入数据,也就是向客户端发送数据。
// 关闭套接字
close(clnt_sock);
}
close(serv_sock);
// 在 Linux 中,socket 也是一种文件,有文件描述符,可以使用 write() / read() 函数进行 I/O 操作
// 和普通文件一样,socket 在使用完毕后也要用 close() 关闭
return 0;
}
客户端在 printf 出 buffer 中的内容以后,使用 sleep 来延迟 clientfd 的关闭。代码如下:
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <unistd.h>
#include <arpa/inet.h>
#include <sys/socket.h>
int main()
{
// 创建套接字
int sock = socket(AF_INET, SOCK_STREAM, 0);
// 向服务器(特定的IP和端口)发起请求
struct sockaddr_in serv_addr;
memset(&serv_addr, 0, sizeof(serv_addr)); // 每个字节都用0填充
serv_addr.sin_family = AF_INET; // 使用IPv4地址
serv_addr.sin_addr.s_addr = inet_addr("127.0.0.1"); // 具体的IP地址
serv_addr.sin_port = htons(1234); // 端口
// 通过 connect() 向服务器发起请求,
// 服务器的IP地址和端口号保存在 sockaddr_in 结构体中。
// 直到服务器传回数据后,connect() 才运行结束
connect(sock, (struct sockaddr *)&serv_addr, sizeof(serv_addr));
// 读取服务器传回的数据
char buffer[40];
// 通过 read() 从套接字文件中读取数据
read(sock, buffer, sizeof(buffer) - 1);
printf("sockfd: %d\n", sock);
printf("Message form server: %s\n", buffer);
sleep(60);
// 关闭套接字
close(sock);
return 0;
}
4.2 分析
- 首先查看未运行服务器时的端口状态,可知此时 1234 端口未监听
- ./server 运行服务器程序,查看到端口 1234 处于监听状态
- 新建终端,运行第一个客户端程序 ./client:现在除了监听端口正在活动,还有客户端通过
localhost: 44746
与服务器的localhost: 1234
建立了 TCP 连接(很快地完成了三次握手、传输数据,并完成了四次挥手中的前两次挥手),客户端进入FIN_WAIT2
状态,服务器在这个连接中进入CLOSE_WAIT
状态
- 在第一个客户端程序还未结束时,运行第二个客户端程序 ./client:分析同上,第二个客户端使用的 ip 和端口号是
localhost: 53580
- 第一个客户端的 sleep 系统调用返回,调用 close(sock) 并退出程序后:第一个 TCP 连接中的客户端进入
TIME_WAIT
状态
- 当两个客户端都退出程序后,两个客户端的端口都处于
TIME_WAIT
状态
- 等待一段时间,两个客户端的端口都结束了
TIME_WAIT
状态 - 停止运行服务器
4.3 心得
这个小 demo 做得我有点懵。首先是在这个服务器程序中,客户端是与服务器的监听端口 1234 进行 TCP 的三次握手、数据传输和四次挥手。之前所说的 accept 会为此客户端连接分发新的 socket,但也仅仅是新的 socket,而没有新的端口(也对,不然人家上千万的高并发哪来那么多端口号。。。),之前一直是自己理解错了(误以为 accept 会为已建立的客户端连接分发新的端口号)。
4.4 存疑
-
我觉得很奇怪,为什么会那么快地进行四次挥手?四次挥手发生在哪个系统调用?或者说,有什么事件会触发四次挥手?之前一直以为是 close(sock) 触发的四次挥手。。。四次挥手下次再说叭。
-
客户端可以指定发起连接请求的端口号吗?如何指定呢?有什么意义吗?
5 引用
小林coding图解计网: