Linux网络编程 - 实现基于Linux的多线程Web服务器端

yunfan188

已于 2022-02-17 10:07:32 修改

阅读量1.8k

点赞数 4

分类专栏： # 网络编程 Linux编程文章标签： Linux网络编程 socket编程 TCP/IP网络编程 HTTP

于 2022-02-16 21:38:30 首次发布

本文链接：https://blog.csdn.net/u010429831/article/details/122710570

版权

网络编程同时被 2 个专栏收录

24 篇文章 10 订阅

订阅专栏

Linux编程

15 篇文章 4 订阅

订阅专栏

引言

前面的博文我们讲解了大量网络编程知识，但是前面的博文中写的网络程序大部分都是一些简单的回声服务器端/客户端，最多也就是网络聊天程序。掌握了这些基础程序的编写方法，就相当于具备了开发应用层网络程序的基本能力。我们已经能够编写服务器端和客户端进行数据交换的程序，接下来应该学习网络应用程序的编写方法。

本文以编写真实网络应用程序为目标，在所学理论知识的基础上，编写 HTTP 服务器端，即 Web服务器端。

HTTP(Hypertext Transfer Protocol，超文本传输协议)

一 HTTP概要

1.1 理解 Web服务器端

互联网的普及使Web服务器端为大众熟知。下面是对 Web 服务器端的定义：

“基于HTTP协议，使网页对应文件传输给客户端的服务器端。”

HTTP 是 Hypertext Transfer Protocol 的缩写，Hypertext（超文本）是可以根据客户端而跳转的结构化信息。例如，我们通过浏览器访问图灵社区的主页时，首页文件将传输到浏览器并展现给我们，此时可以点击鼠标跳转到任意页面。这种可跳转的文本（text）称为超文本。

HTTP 协议又是什么呢？HTTP 是以超文本传输为目的而设计的应用层协议，这种协议同样属于基于 TCP/IP 实现的协议，因此，我们也可以直接实现 HTTP。从结果上看，实现该协议相当于实现 Web服务器端。另外，浏览器也属于基于套接字(socket)的客户端，因为连接到任意Web服务器端时，浏览器内部也会创建套接字。只不过浏览器多了一项功能，它将服务器端传输的 HTML 格式的超文本解析为可读性较强的视图页面。总之，Web 服务器端是以 HTTP 协议为基础传输超文本的服务器端。

《提示》HTTP 是专用名词

HTTP 中的 P 是 Protocol（协议）的缩写，所以 “HTTP 协议” 这种表示其实重复表达了 “协议” 一词。但 HTTP 属于专用名词，因此通常直接表述为 “HTTP 协议”。

1.2 HTTP 协议

下面详细讨论 HTTP 协议。虽然它相对简单，但要完全驾驭也并非易事。接下来只介绍编写 Web 服务器端时的必要内容。

无状态的(Stateless)协议

为了在网络环境下同时向大量客户端提供服务，HTTP 协议的请求及响应方式设计如下图 1 所示。

从图 1 中可以看到，服务器端响应客户端请求后立即断开连接。换言之，服务器端不会维持客户端状态。即使同一个客户端再次发送请求，服务器端也无法辨认出是原先哪个，而会以相同方式处理新请求。因此，HTTP 又称 “无状态(Stateless)的协议”。

《提示》Cookie & Session

为了弥补 HTTP 无法保持连接的缺点，Web 编程中通常会使用 Cookie 和 Session 技术。相信各位都接触过购物网站的购物车功能，即使关闭浏览器也不会丢失购物车内的信息（甚至不用登录）。这种保持连接状态的功能都是通过 Cookie 和 Session 技术实现的。

1.3 请求信息（Request Message）的结构

下面介绍客户端向服务器端发送的请求消息的结构。Web 服务器端需要解析并响应客户端请求，客户端和服务器端之间的数据请求方式标准如下图 2 所示。

从图 2 中可以看到，请求消息可以分为：请求行、消息头、消息体等三个部分。其中，请求行含有请求方式（请求目的）信息。典型的请求方式有 GET 和 POST，GET 主要用于请求数据，POST 主要用于传输数据。为了降低复杂度，我们实现只能响应 GET 请求的服务器端。下面解释图 2 中的请求行信息。其中 "GET /index.html HTTP/1.1" 具有如下含义：

请求（GET）index.html 文件，希望以 1.1 版本的 HTTP 协议进行通信。

请求行只能通过一行（Line）发送，因此，服务器端很容易从 HTTP 请求中提取第一行，并分析请求行中的信息。

请求行下面的消息头中包含发送请求的（将要接收响应信息的）浏览器信息、用户认证信息等关于 HTTP 消息的附加信息。最后的信息体中装有客户端向服务器端传输的数据，为了转入数据，需要以 POST 方式发送请求。但我们的目标是实现 GET 方式的服务器端，所以可以忽略这部分内容。另外，消息体和消息头之间以空行分开，因此不会发生边界问题。

1.4 响应消息（Response Message）的结构

下面介绍 Web 服务器端向客户端传递的响应信息的结构。从下图 3 中可以看到，该响应消息由状态行、消息头、消息体等三个部分组成。状态行中含有关于请求的状态信息，这是其与请求消息相比最为显著的区别。

从图 3 中可以看到，第一个字符串状态行中含有关于客户端请求的处理结果。例如，客户端请求 index.html 文件时，表示 index.html 文件是否存在，服务器端是否发生问题而无法响应等不同情况的信息将写入状态行。图 3 中的 "HTTP/1.1 200 OK" 具有如下含义：

我想用 HTTP 1.1 版本进行响应，你的请求已正确处理 (200 OK)。

表示 “客户端请求的执行结果” 的数字称为状态码，典型的有以下几种。

200 OK：成功处理了请求！
404 Not Found：请求的文件！
400 Bad Request：请求方式错误，请检查！

消息头中含有传输的数据类型和长度等信息。上图 3 中的消息头含有如下信息：

服务器端名为 SimpleWebServer，传输的数据类型为 text/html（html 格式的文本数据）。数据长度不超过 2048 字节。

最后插入一个空行后，通过消息体发送客户端请求的文件数据，以上就是实现 Web 服务器端过程中必要的 HTTP 协议。要编写完整的 Web 服务器还需要更多 HTTP 协议相关知识，而对于我们的目标而言，这些内容已经足够了。

二实现简单的 Web 服务器端

Web 服务器端，应用层采用 HTTP协议，运输层采用 TCP协议。即使用 IOCP（Windows下的I/O多路复用模型）或 epoll 模型也不会大幅提升性能（当然并不是完全没有）。客户端和服务器端交换一次数据后将立即断开连接，没有足够时间发挥 IOCP 或 epoll 的优势。在服务器端和客户端保持较长连接的前提下，频繁发送大小不一的消息时（最典型的就是网游服务器端），才能真正发挥出这两种模型的优势。

2.1 实现基于 Linux 的多线程 Web 服务器端

为了实现 Web服务器端，我们使用多线程模型。也就是说，客户端每次发起请求时，都创建一个新线程响应客户端的请求。

对于 Linux 下的 Web服务器端，我们将使用标准 I/O 函数。

webserv_linux.c

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <string.h>
#include <arpa/inet.h>
#include <sys/socket.h>
#include <pthread.h>

#define TRUE      1
#define BUF_SIZE  1024
#define SMALL_BUF 100

typedef struct sockaddr SA;

void* request_handler(void *arg);
void send_data(FILE *fp, char *ct, char *file_name);
char* content_type(char *file);
void send_error(FILE *fp);
void error_handling(char *message);

int main(int argc, char *argv[])
{
    int serv_sock, clnt_sock;
    struct sockaddr_in serv_adr, clnt_adr;
    int clnt_adr_sz;
    char buf[BUF_SIZE] = {0};
    pthread_t tid;
    
    if(argc != 2){
        printf("Usage: %s <port>\n", argv[0]);
        exit(1);
    }
    
    serv_sock = socket(PF_INET, SOCK_STREAM, 0);
    //为serv_sock套接字文件描述符设置SO_REUSEADDR可选项
    int option = TRUE;
    int optlen = sizeof(option);
    setsockopt(serv_sock, SOL_SOCKET, SO_REUSEADDR, (void*)&option, optlen);
    
    memset(&serv_adr, 0, sizeof(serv_adr));
    serv_adr.sin_family = AF_INET;
    serv_adr.sin_addr.s_addr = htonl(INADDR_ANY);
    serv_adr.sin_port = htons(atoi(argv[1]));
    
    if(bind(serv_sock, (SA*)&serv_adr, sizeof(serv_adr)) == -1)
        error_handling("bind() error!");
    if(listen(serv_sock, 20) == -1)
        error_handling("listen() error!");

    while(1)
    {
        clnt_adr_sz = sizeof(clnt_adr);
        clnt_sock = accept(serv_sock, (SA*)&clnt_adr, &clnt_adr_sz);
        if(clnt_sock == -1){
            error_handling("accept() error!");
            continue;
        }
        printf("Connection Request: %s:%d\n", inet_ntoa(clnt_adr.sin_addr), 
                ntohs(clnt_adr.sin_port));
        pthread_create(&tid, NULL, request_handler, &clnt_sock);  //创建线程
        pthread_detach(tid);  //线程分离
    }
    close(serv_sock);
    return 0;
}

void* request_handler(void *arg)
{
    int clnt_sock = *(int*)arg;
    char req_line[SMALL_BUF] = {0};
    FILE *clnt_read, *clnt_write;
    char method[10] = {0};
    char ct[15] = {0};
    char file_name[30] = {0};
    
    clnt_read = fdopen(clnt_sock, "r");
    clnt_write = fdopen(dup(clnt_sock), "w");
    fgets(req_line, SMALL_BUF, clnt_read);
    if(strstr(req_line, "HTTP/") == NULL)  //查看是否为HTTP提出的请求
    {
        send_error(clnt_write);
        fclose(clnt_read);
        fclose(clnt_write);
        return NULL;
    }
    strcpy(method, strtok(req_line, " /"));     //获取请求行中的方法
    strcpy(file_name, strtok(NULL, " /"));      //获取请求文件名
    //printf("file_name: %s\n", file_name);
    strcpy(ct, content_type(file_name));        //获取Content-type
    if(strcmp(method, "GET") != 0)              //查看是否为GET方式请求
    {
        send_error(clnt_write);
        fclose(clnt_read);
        fclose(clnt_write);
        return NULL;
    }
    fclose(clnt_read);
    send_data(clnt_write, ct, file_name);       //响应处理
    return NULL;
}

//发送响应消息给客户端
void send_data(FILE *fp, char *ct, char *file_name)
{
    char protocol[] = "HTTP/1.1 200 OK\r\n";
    char server[] = "Server:Linux Web Server \r\n";
    char cnt_len[] = "Content-length:2048\r\n";
    char cnt_type[SMALL_BUF] = {0};
    char buf[BUF_SIZE] = {0};
    FILE *send_file;
    
    sprintf(cnt_type, "Content-type:%s\r\n\r\n", ct);
    send_file = fopen(file_name, "r");
    if(send_file == NULL)
    {
        printf("open file [%s] error!\n", file_name);
        send_error(fp);
        return;
    }
    
    //传输HTTP的状态行+消息头信息
    fputs(protocol, fp);
    fputs(server, fp);
    fputs(cnt_len, fp);
    fputs(cnt_type, fp);
    
    //传输HTTP的消息体信息,即HTML文件内容
    while(fgets(buf, BUF_SIZE, send_file) != NULL)
    {
        fputs(buf, fp);
        fflush(fp);
    }
    fflush(fp);
    fclose(fp);
}

//区分Content-type
char* content_type(char *file)
{
    char extension[SMALL_BUF] = {0};  //存放文件扩展名
    char file_name[SMALL_BUF] = {0};  //存放文件名
    strcpy(file_name, file);
    strtok(file_name, ".");
    strcpy(extension, strtok(NULL, "."));
    
    if(!strcmp(extension, "html") || !strcmp(extension, "htm"))
        return "text/html";
    else
        return "text/plain";
}

void send_error(FILE *fp)
{
    char protocol[] = "HTTP/1.1 400 Bad Request\r\n";
    char server[] = "Server:Linux Web Server \r\n";
    char cnt_len[] = "Content-length:2048\r\n";
    char cnt_type[] = "Content-type:text/html\r\n\r\n";
    char content[] = "<html>\
<head><title>NETWORK</title></head>\
<body><font size=+5><br>\
发生错误!请检查请求文件名和请求方式!\
</font></body>\
</html>";

    //传输HTTP的状态行+消息头信息
    fputs(protocol, fp);
    fputs(server, fp);
    fputs(cnt_len, fp);
    fputs(cnt_type, fp);
    
    //传输HTTP的消息体信息,即HTML文件内容
    fputs(content, fp);
    fflush(fp);
    fclose(fp);
}

void error_handling(char *message)
{
    fputs(message, stderr);
    fputc('\n', stderr);
    exit(1);
}

运行结果

首先，启动该Web服务器端，然后在启动Web浏览器进行连接。

$ gcc webserv_linux.c -o webserv -lpthread
$ ./webserv 9190
Connection Request: 192.168.1.102:50070
Connection Request: 192.168.1.102:50071
Connection Request: 192.168.1.102:50072
Connection Request: 192.168.1.102:50073
Connection Request: 192.168.1.102:50151
^C

在浏览器的地址栏中输入如下地址：

http://192.168.1.103:9190/index.html

如果是在同一台主机上运行，可以在浏览器地址栏输入如下地址：

http://localhost:9190/index.html

或者

http://127.0.0.1:9190/index.html

该请求相当于连接到 IP为 192.168.1.103（或 127.0.0.1）、端口号为 9190 的套接字，并请求获取 index.html 文件。

index.html 文件内容如下：

<html>
<head><title>NETWORK</title></head>
<body><font size=+5>
TCP/IP Socket Programming<br>
Is it funny?
</font></body>
</html>

在浏览器地址栏输入上述地址，点击访问，就可以看到页面效果了。

如果在浏览器地址栏输入不存在的 HTML 文件，则会报错，提示：您访问的网页出错了！

三习题

1、下列关于Web服务器和Web浏览器的说法错误的是？

a. Web浏览器并不是通过自身创建的套接字连接服务器端的客户端。

b. Web服务器通过TCP套接字提供服务，因为它将保持较长的客户端连接并交换数据。

c. 超文本与普通文本的最大区别是其具有可跳转的特性。

d. Web服务器端可视为向浏览器提供请求文件的文件传输服务器端。

e. 除Web浏览器外，其他客户端都无法访问Web服务器端。

答：a、b、e。分析如下：

a：Web浏览器是通过自身创建的套接字连接Web服务器端的。故 a 的说法错误。
b：浏览器客户端与Web服务器端的确是通过TCP套接字建立连接的，但是它们之间的连接时短连接，而不是长连接。故 b 的说法错误。
e：只要与Web服务器端成功建立TCP连接，都是可以访问Web服务器端的，而不是仅限于Web浏览器。故 e 的说法错误。

2、下列关于HTTP协议的描述错误的是？

a. HTTP协议是无状态的(Stateless)协议，不仅可以通过TCP实现，还可通过UDP实现。

b. HTTP协议是无状态的(Stateless)协议，因为其在一次请求和响应过程完成后立即断开连接。因此，如果同一个服务器端和客户端需要三次请求和响应，则意味着要经过三次套接字创建过程。

c. 服务器端向客户端传递的状态码中含有请求处理结果信息。

d. HTTP协议是基于因特网的协议，因此，为了同时向大量客户端提供服务，HTTP被设计为Stateless协议。

答：a。分析如下：

a：HTTP协议的实现只能通过TCP实现，不能通过UDP实现，因为TCP能提供可靠输出传输，而UDP无法保证可靠传输。故 a 的说法错误。

3、IOCP和epoll是可以保证高性能的典型服务器端模型，但如果在基于HTTP协议的Web服务器端使用这些模型，则无法保证一定能得到高性能。请说明原因。

答：IOCP和epoll都是可以管理两个以上socket的服务器端模型。即在称为观察对象的端口中，感知与I/O相关的事件发生的端口，并处理相关的I/O事件的服务器端模型。其实对Web服务器端来说，通常并不需要管理两个以上的socket。因为只要完成一次请求和响应的过程，连接就会结束。因此，用IOCP和epoll能一定程度上提高性能，但性能提升有一定的局限性。