Web服务器解析HTTP请求-CSDN博客

本文链接：https://blog.csdn.net/qq_44571245/article/details/123398542

web服务器接收客户端发送过来的HTTP请求，把接收到的信息进行行提取，获取请求行以及请求头部字段，利用主从状态机进行解析状态的转移，并根据解析结果返回HTTP状态码，完成整个解析过程。

文末附带游双老师的《深入解析高性能服务器编程》的http请求代码，该实例用主状态机表示正在分析的状态，用从状态机表示行获取的状态，用HTTP_CODE表示服务器处理请求返回的状态码。

所有的状态以及状态码均使用枚举完成：

// 主状态机的两种可能状态，分别表示为当前正在分析请求行，当前正在分析头部字段
enum CHECK_STATE { CHECK_STATE_REQUESTLINE = 0, CHECK_STATE_HEADER };

// 从状态机的三种状态，即行的读取状态，分别表示：读取到一个完整的行、行出错和行数据尚且不完整
enum LINE_STATUS { LINE_OK = 0, LINE_BAD, LINE_OPEN };

// 服务器处理HTTP请求的结果： NO_REQUEST表示请求不完整，需要读取客户数据；GET_REQUEST表示获得一个完整的客户请求；BAD_REQUEST表示客户请求有语法错误；FORBIDDEN_REQUEST表示客户对资源没有足够的访问权限；INTERNAL_ERROR表示服务器内部错误，CLOSED_CONNECTION表示客户端已经关闭连接了
enum HTTP_CODE { NO_REQUEST, GET_REQUEST, BAD_REQUEST, FORBIDDEN_REQUEST, INTERNAL_ERROR, CLOSED_CONNECTION };

主体结构上采用了四个函数解析HTTP请求：

// 从状态机，用于解析出一行内容
LINE_STATUS parse_line( char* buffer, int& checked_index, int& read_index )

// 分析请求行 例如GET /56200338.jpg HTTP/1.1
HTTP_CODE parse_requestline( char* temp, CHECK_STATE& checkstate)

// 分析头部字段
HTTP_CODE parse_headers(char* temp)

// 分析HTTP请求的入口函数
HTTP_CODE parse_content(char* buffer, int& checked_index, CHECK_STATE& checkstate, int& read_index, int& start_line)

以下是对源码进行几点详细解释：

1、主状态机用来判断在分析请求行or分析请求头

2、从状态机用来读取行的状态分别表示获取一个完整行、行出错以及行的数据不完整

3、用 LINE_STATUS parse_line( char* buffer, int& checked_index, int& read_index ) 获取一行的内容提供给后续分析

4、用 HTTP_CODE parse_requestline( char* temp, CHECK_STATE& checkstate) 来分析请求行

5、用 HTTP_CODE parse_headers(char* temp) 分析头部字段

6、用 HTTP_CODE parse_content(char* buffer, int& checked_index, CHECK_STATE& checkstate, int& read_index, int& start_line) 来作为HTTP请求的入口函数其主要流程是获取一行的内容，如果获取完整行，根据主状态机的状态判断是进行分析请求行还是分析头部字段；如果获取的非完整行或者行出错，根据linestatus返回响应的HTTP_CODE

7、recv客户端发来的信息并存到buffer中， data_read记录获取的字节数，read_index在原来的基础上继续往后更新data_read个位置，checked_index代表正在分析的字节在buffer的位置，并通过parse_line()更新checked_index，更新前start_line用来记录当前行的起始位置，用过checked_index来更新，因为每经过一次parse_line()，checked_index都会指向下一行的位置，这时可以把checked_index赋值给start_line，更新后start_line用来记录下一行的起始位置，所以需要用temp来记录更新前start_line指向的位置，通过temp就能确定一行（因为行末尾已经用'\0'分隔好了），进而进行分析。

书中源码如下：

#include<sys/socket.h>
#include<netinet/in.h>
#include<arpa/inet.h>
#include<assert.h>
#include<stdio.h>
#include<stdlib.h>
#include<unistd.h>
#include<errno.h>
#include<string.h>
#include<fcntl.h>

#define BUFFER_SIZE 4096 // 读缓冲区的大小

// 主状态机的两种可能状态，分别表示为当前正在分析请求行，当前正在分析头部字段
enum CHECK_STATE { CHECK_STATE_REQUESTLINE = 0, CHECK_STATE_HEADER };

// 从状态机的三种状态，即行的读取状态，分别表示：读取到一个完整的行、行出错和行数据尚且不完整
enum LINE_STATUS { LINE_OK = 0, LINE_BAD, LINE_OPEN };

// 服务器处理HTTP请求的结果： NO_REQUEST表示请求不完整，需要读取客户数据；GET_REQUEST表示获得一个完整的客户请求；BAD_REQUEST表示客户请求有语法错误；FORBIDDEN_REQUEST表示客户对资源没有足够的访问权限；INTERNAL_ERROR表示服务器内部错误，CLOSED_CONNECTION表示客户端已经关闭连接了
enum HTTP_CODE { NO_REQUEST, GET_REQUEST, BAD_REQUEST, FORBIDDEN_REQUEST, INTERNAL_ERROR, CLOSED_CONNECTION };

// 为了简化问题，我们没有给客户端发送一个完整的HTTP应答报文，而是根据服务器的处理结果发送如下成功或者失败信息
static const char* szret[] = {"I get a correct result\n","Someting wrong\n"};

// 从状态机，用于解析出一行内容
LINE_STATUS parse_line( char* buffer, int& checked_index, int& read_index )
{
    char temp;
    // checked index指向buffer(应用程序的读缓冲区)中当前正在分析的字节，read_index指向buffer中客户数据的尾部的下一字节，buffer中第0~checked_index字节都已分析完毕，第checked_index~(read_index-1)字节由下面的循环挨个分析
    for(; checked_index < read_index; ++ checked_index)
    {
        // 获取当前需要分析的字节
        temp = buffer[checked_index];
        // 如果当前字节是"\r"，即回车符，则说明可能读到一个完整的行
        if(temp == '\r')
        {
            // 如果"\r"字符碰巧是目前buffer中的最后一个已经被读入的客户数据，那么这次分析没有读到一个完整的行，返回LINE_OPEN以表示还需要继续读取客户数据才能进一步分析
            if((checked_index+1)==read_index)
            {
                return LINE_OPEN;
            }
            // 如果下一个字符是"\n"，则说明我们成功读取到一个完整的行
            else if (buffer[checked_index +1 ]=='\n')
            {
                buffer[checked_index++] = '\0';
                buffer[checked_index++] = '\0';
                return LINE_OK;

            }
            // 否则的话，说明客户发送的HTTP请求存在语法问题
            return LINE_BAD;
        }
        // 如果当前的字节是"\n"，即换行符，则也说明可能读取到一个完整的行
        else if(temp == '\n')
        {
            if((checked_index>1)&&buffer[checked_index -1]=='\r')
            {
                buffer[checked_index-1] = '\0';
                buffer[checked_index++] = '\0';
                return LINE_OK;
            }
            return LINE_BAD;
        }
        
    }
    // 如果所有内容都分析完毕也没有遇到"\r"字符，则返回LINE_OPEN，表示还需要读取客户数据才能进一步分析
    return LINE_OPEN;
}

// 分析请求行 例如GET /56200338.jpg HTTP/1.1
HTTP_CODE parse_requestline( char* temp, CHECK_STATE& checkstate)
{
    char* url = strpbrk( temp, " \t");
    // 如果请求行中没有空白字符或者"\t"字符，则HTTP请求必有问题（\t代表空8个字符）
    if(!url){
        return BAD_REQUEST;
    }
    *url++ = '\0';
    char* method = temp;
    if(strcasecmp(method, "GET")==0) // 仅支撑GET方法
    {
        printf("The request method is GET\n");
    }else{
        return BAD_REQUEST;
    }
    // 检索字符串str1中第一个不在字符串str2中出现的字符下标
    url += strspn(url, " \t");
    char* version = strpbrk(url, " \t");
    if(!version){
        return BAD_REQUEST;
    }
    *version++ = '\0';
    version += strspn(version," \t");
    // 仅支持HTTP/1.1
    if( strncasecmp(url, "http://",7)==0){
        url += 7;
        // 在参数 str 所指向的字符串中搜索第一次出现字符 c（一个无符号字符）的位置
        url = strchr(url, '/');
    }
    if( !url || url[0] != '/'){
        return BAD_REQUEST;
    }
    printf("The request URL is: %s\n",url);
    // HTTP请求行处理完毕，状态转移到头部字段的分析
    checkstate = CHECK_STATE_HEADER;
    return NO_REQUEST;

}

// 分析头部字段
HTTP_CODE parse_headers(char* temp){
    // 遇到一个空行，说明我们得到了一个正确的HTTP请求
    if( temp[0] == '\0'){
        return GET_REQUEST;
    }else if( strncasecmp(temp,"Host:",5)==0){
        temp += 5;
        temp += strspn (temp, " \t");
        printf("the request host is: %s\n",temp);
    }else{
        // 其他字段都不做处理
        printf("I can not handle this header\n");
    }
    return NO_REQUEST;
}

// 分析HTTP请求的入口函数
HTTP_CODE parse_content(char* buffer, int& checked_index, CHECK_STATE& checkstate, int& read_index, int& start_line)
{
    // 记录当前行的读取状态
    LINE_STATUS linestatus = LINE_OK;
    // 记录http请求结果
    HTTP_CODE retcode = NO_REQUEST;
    // 主状态机，用于从buffer中取出所有完整行
    while((linestatus = parse_line(buffer,checked_index,read_index))==LINE_OK)
    {
        // start_line是行在buffer中的起始位置
        char* temp = buffer + start_line;
        // 记录下一行的起始位置
        start_line = checked_index;
        // checkstate 记录主状态机当前的状态
        switch (checkstate)
        {
            // 第一个状态，分析请求行
            case CHECK_STATE_REQUESTLINE:
            {
                retcode = parse_requestline(temp,checkstate);
                if (retcode == BAD_REQUEST)
                {
                    return BAD_REQUEST;
                }
                break;
            }
            // 第二个状态，分析头部字段
            case CHECK_STATE_HEADER:
            {
                retcode = parse_headers(temp);
                if(retcode == BAD_REQUEST){
                    return BAD_REQUEST;
                }else if (retcode == GET_REQUEST)
                {
                    return GET_REQUEST;
                }
                break;
            }
            default:
            {
                return INTERNAL_ERROR;
            }
        }
    }
    // 若没有读取到一个完整的行，则表示还需要继续读取客户数据才能进一步分析
    if(linestatus == LINE_OPEN)
    {
        return NO_REQUEST;
    }
    else{
        return BAD_REQUEST;
    }
}

int main(int argc, char* argv[])
{
    if(argc<=2)
    {
        printf("usage: %s ip_address prot_number\n",basename(argv[0]));
        return 1;
    }

    // 从输入参数获取服务器的ip与监听端口
    const char* ip = argv[1];
    int port = atoi(argv[2]);

    // 用address结构体来存放服务器的信息，包括协议，ip，端口
    struct sockaddr_in address;
    bzero(&address,sizeof(address));
    address.sin_family = AF_INET;
    inet_pton(AF_INET,ip,&address.sin_addr);
    address.sin_port = htons(port);

    // 新建一个监听的套接字
    int listenfd = socket(PF_INET,SOCK_STREAM,0);
    assert(listen>=0);
    // 绑定监听的套接字到服务器上
    int ret = bind(listenfd,(struct sockaddr*)&address,sizeof(address));
    assert(ret!=-1);
    // 设置监听的数量
    ret = listen(listenfd,5);
    assert(ret!=-1);

    // 用client_address来存放客户端的信息
    struct sockaddr_in client_address;
    socklen_t client_addrlength = sizeof(client_address);
    // 利用accept函数把客户端的信息存进client_address
    int fd = accept(listenfd,(struct sockaddr*)&client_address,&client_addrlength);
    if(fd<0)
    {
        printf("errno is: %d\n",errno);
    }else{
        char buffer[BUFFER_SIZE];  // 读缓冲区
        memset(buffer,'\0',BUFFER_SIZE);
        int data_read = 0;
        // 当前已经读取了多少字节的客户数据
        int read_index = 0;
        // 当前已经分析完了多少字节的客户数据
        int checked_index = 0;
        // 行在buffer中的起始位置
        int start_line = 0;

        // 设置主状态机的初始状态
        CHECK_STATE checkstate = CHECK_STATE_REQUESTLINE;
        // 循环读取客户数据并分析
        while (1)
        {
            // int recv( SOCKET s, char *buf, int len, int flags) 返回实际读取的字节数
            data_read = recv(fd,buffer+read_index,BUFFER_SIZE-read_index,0);
            if(data_read == -1)
            {
                printf("reading failed\n");
                break;
            }
            else if(data_read == 0)
            {
                printf("remote client has closed the connection\n");
                break;
            }
            read_index += data_read;

            // 分析目前已经获得的所有客户数据
            HTTP_CODE result = parse_content(buffer,checked_index,checkstate,read_index,start_line);
            // 尚未得到一个完整的HTTP请求
            if(result==NO_REQUEST)
            {
                continue;
            }
            // 得到一个完整的、正确的HTTP请求
            else if(result == GET_REQUEST)
            {
                send(fd,szret[0],strlen(szret[0]),0);
                break;
            }
            // 其他情况表示发生错误
            else{
                send(fd,szret[1],strlen(szret[1]),0);
                break;
            }
        }
        close(fd);
        
    }
    close(listenfd);
    return 0;
}