Linux下C++轻量级Web服务器

冰镇雪糕

已于 2022-04-21 20:43:01 修改

阅读量5.7k

点赞数 20

文章标签： c++

于 2022-04-06 09:52:16 首次发布

本文链接：https://blog.csdn.net/qq_40808423/article/details/123981618

版权

系统框架

使用 线程池 + 非阻塞socket + epoll(ET和LT均实现) + 事件处理(Reactor和模拟Proactor均实现) 的并发模型
使用状态机解析HTTP请求报文，支持解析GET和POST请求
访问服务器数据库实现web端用户注册、登录功能，可以请求服务器图片和视频文件
利用单例模式与阻塞队列实现异步的日志系统，记录服务器运行状态；
经Webbench压力测试可以实现上万的并发连接数据交换
利用标准库容器封装char，实现自动增长的缓冲区；
基于小根堆实现的定时器，关闭超时的非活动连接；
利用RAII机制实现了数据库连接池，减少数据库连接建立与关闭的开销，同时实现了用户注册登录功能。

基础知识（线程同步机制封装类）

一、线程同步

1. RAII

RAII全称是“Resource Acquisition is Initialization”，直译过来是“资源获取即初始化”.
在构造函数中申请分配资源，在析构函数中释放资源。因为C++的语言机制保证了，当一个对象创建的时候，自动调用构造函数，当对象超出作用域的时候会自动调用析构函数。所以，在RAII的指导下，我们应该使用类来管理资源，将资源和对象的生命周期绑定
RAII的核心思想是将资源或者状态与对象的生命周期绑定，通过C++的语言机制，实现资源和状态的安全管理,智能指针是RAII最好的例子

2. 信号量

信号量是一种特殊的变量，它只能取自然数值并且只支持两种操作：等待(P)和信号(V).假设有信号量SV，对其的P、V操作如下：

P，如果SV的值大于0，则将其减一；若SV的值为0，则挂起执行

V，如果有其他进行因为等待SV而挂起，则唤醒；若没有，则将SV值加一

信号量的取值可以是任何自然数，最常用的，最简单的信号量是二进制信号量，只有0和1两个值。

sem_init函数用于初始化一个未命名的信号量

sem_destory函数用于销毁信号量

sem_wait函数将以原子操作方式将信号量减一,信号量为0时,sem_wait阻塞

sem_post函数以原子操作方式将信号量加一,信号量大于0时,唤醒调用sem_post的线程

以上，成功返回0，失败返回 errno。

3. 互斥量

互斥锁，也称为互斥量，可以保护关键代码段，以确保独占式访问。当进入关键代码段,获得互斥锁将其加锁;离开关键代码段,唤醒等待该互斥锁的线程。

pthread_mutex_init函数用于初始化互斥锁

pthread_mutex_destory函数用于销毁互斥锁

pthread_mutex_lock函数以原子操作方式给互斥锁加锁

pthread_mutex_unlock函数以原子操作方式给互斥锁解锁

以上，成功返回0，失败返回errno。

4. 条件变量

条件变量提供了一种线程间的通知机制,当某个共享数据达到某个值时,唤醒等待这个共享数据的线程。

pthread_cond_init函数用于初始化条件变量

pthread_cond_destory函数销毁条件变量

pthread_cond_broadcast函数以广播的方式唤醒所有等待目标条件变量的线程

pthread_cond_wait函数用于等待目标条件变量.该函数调用时需要传入 mutex参数(加锁的互斥锁) ,函数执行时,先把调用线程放入条件变量的请求队列,然后将互斥锁mutex解锁,当函数成功返回为0时,互斥锁会再次被锁上. 也就是说函数内部会有一次解锁和加锁操作.

功能

封装的功能

类中主要是Linux下三种锁进行封装，将锁的创建于销毁函数封装在类的构造与析构函数中，实现RAII机制
将重复使用的代码封装为函数，减少代码的重复，使其更简洁

锁机制的功能

实现多线程同步，通过锁机制，确保任一时刻只能有一个线程能进入关键代码段。

半同步半反应堆线程池

一、服务器基本框架

主要由I/O单元，逻辑单元和网络存储单元组成，其中每个单元之间通过请求队列进行通信，从而协同完成任务。

其中I/O单元用于处理客户端连接，读写网络数据；逻辑单元用于处理业务逻辑的线程；网络存储单元指本地数据库和文件等。

二、五种I/O模型

阻塞IO:调用者调用了某个函数，等待这个函数返回，期间什么也不做，不停的去检查这个函数有没有返回，必须等这个函数返回才能进行下一步动作
非阻塞IO:非阻塞等待，每隔一段时间就去检测IO事件是否就绪。没有就绪就可以做其他事。非阻塞I/O执行系统调用总是立即返回，不管时间是否已经发生，若时间没有发生，则返回-1，此时可以根据errno区分这两种情况，对于accept，recv和send，事件未发生时，errno通常被设置成eagain
信号驱动IO:linux用套接口进行信号驱动IO，安装一个信号处理函数，进程继续运行并不阻塞，当IO时间就绪，进程收到SIGIO信号。然后处理IO事件。
IO复用:linux用select/poll函数实现IO复用模型，这两个函数也会使进程阻塞，但是和阻塞IO所不同的是这两个函数可以同时阻塞多个IO操作。而且可以同时对多个读操作、写操作的IO函数进行检测。知道有数据可读或可写时，才真正调用IO操作函数
异步IO:linux中，可以调用aio_read函数告诉内核描述字缓冲区指针和缓冲区的大小、文件偏移及通知的方式，然后立即返回，当内核将数据拷贝到缓冲区后，再通知应用程序。

tags：阻塞I/O，非阻塞I/O，信号驱动I/O和I/O复用都是同步I/O。同步I/O指内核向应用程序通知的是就绪事件，比如只通知有客户端连接，要求用户代码自行执行I/O操作，异步I/O是指内核向应用程序通知的是完成事件，比如读取客户端的数据后才通知应用程序，由内核完成I/O操作。

三、事件处理模式

reactor模式中，主线程(I/O处理单元)只负责监听文件描述符上是否有事件发生，有的话立即通知工作线程(逻辑单元 )，读写数据、接受新连接及处理客户请求均在工作线程中完成。通常由同步I/O实现。
proactor模式中，主线程和内核负责处理读写数据、接受新连接等I/O操作，工作线程仅负责业务逻辑，如处理客户请求。通常由异步I/O实现。

同步I/O模拟Proactor模式

由于异步I/O并不成熟，实际中使用较少，这里将使用同步I/O模拟实现proactor模式。

同步I/O模型的工作流程如下（epoll_wait为例）：

主线程往epoll内核事件表注册socket上的读就绪事件。

主线程调用epoll_wait等待socket上有数据可读

当socket上有数据可读，epoll_wait通知主线程,主线程从socket循环读取数据，直到没有更多数据可读，然后将读取到的数据封装成一个请求对象并插入请求队列。

睡眠在请求队列上某个工作线程被唤醒，它获得请求对象并处理客户请求，然后往epoll内核事件表中注册该socket上的写就绪事件

主线程调用epoll_wait等待socket可写。

当socket上有数据可写，epoll_wait通知主线程。主线程往socket上写入服务器处理客户请求的结果。

四、并发编程模式

并发编程方法的实现有多线程和多进程两种，但这里涉及的并发模式指I/O处理单元与逻辑单元的协同完成任务的方法。

半同步/半异步模式
领导者/追随者模式

半同步/半反应堆

半同步/半反应堆并发模式是半同步/半异步的变体，将半异步具体化为某种事件处理模式。

并发模式中的同步和异步

同步指的是程序完全按照代码序列的顺序执行

异步指的是程序的执行需要由系统事件驱动

半同步/半异步模式流程

同步线程用于处理客户逻辑

异步线程用于处理I/O事件

异步线程监听到客户请求后，就将其封装成请求对象并插入请求队列中

请求队列将通知某个工作在同步模式的工作线程来读取并处理该请求对象

半同步/半反应堆工作流程（以Procator模式为例）

主线程充当异步线程，负责监听所有socket上的事件

若有新请求到来，主线程接收之以得到新的连接socket，然后往epoll内核事件表中注册该socket上的读写事件

如果连接socket上有读写事件发生，主线程从socket上接收数据，并将数据封装成请求对象插入到请求队列中

所有工作线程睡眠在请求队列上，当有任务到来时，通过竞争（如互斥锁）获得任务的接管权

五、静态成员

静态成员变量

将类成员变量声明为static，则为静态成员变量，与一般的成员变量不同，无论建立多少对象，都只有一个静态成员变量的拷贝，静态成员变量属于一个类，所有对象共享。

静态变量在编译阶段就分配了空间，对象还没创建时就已经分配了空间，放到全局静态区。

静态成员变量：

最好是类内声明，类外初始化（以免类名访问静态成员访问不到）。

无论公有，私有，静态成员都可以在类外定义，但私有成员仍有访问权限。

非静态成员类外不能初始化。

静态成员数据是共享的。

静态成员函数

将类成员函数声明为static，则为静态成员函数。

静态成员函数：

静态成员函数可以直接访问静态成员变量，不能直接访问普通成员变量，但可以通过参数传递的方式访问。
普通成员函数可以访问普通成员变量，也可以访问静态成员变量。
静态成员函数没有this指针。非静态数据成员为对象单独维护，但静态成员函数为共享函数，无法区分是哪个对象，因此不能直接访问普通变量成员，也没有this指针。

pthread_create陷阱

#include <pthread.h>
int pthread_create (pthread_t *thread_tid,                 //返回新生成的线程的id
                    const pthread_attr_t *attr,         //指向线程属性的指针,通常设置为NULL
                    void * (*start_routine) (void *),   //处理线程函数的地址
                    void *arg);                         //start_routine()中的参数

函数原型中的第三个参数，为函数指针，指向处理线程函数的地址。该函数，要求为静态函数。如果处理线程函数为类成员函数时，需要将其设置为静态成员函数。

this指针

pthread_create的函数原型中第三个参数的类型为函数指针，指向的线程处理函数参数类型为(void *),若线程函数为类成员函数，则this指针会作为默认的参数被传进函数中，从而和线程函数参数(void*)不能匹配，不能通过编译。

静态成员函数就没有这个问题，里面没有this指针。

六、线程池

空间换时间,浪费服务器的硬件资源,换取运行效率。
池是一组资源的集合,这组资源在服务器启动之初就被完全创建好并初始化,称为静态资源。
当服务器进入正式运行阶段,开始处理客户请求的时候,如果它需要相关的资源,可以直接从池中获取,无需动态分配。
当服务器处理完一个客户连接后,可以把相关的资源放回池中,无需执行系统调用释放资源。

线程池分析

线程池的设计模式为半同步/半反应堆，其中反应堆具体为Proactor事件处理模式。

具体的，主线程为异步线程，负责监听文件描述符，接收socket新连接，若当前监听的socket发生了读写事件，然后将任务插入到请求队列。工作线程从请求队列中取出任务，完成读写数据的处理。

线程池类定义

具体定义可以看代码。需要注意，线程处理函数和运行函数设置为私有属性。

1template<typename T>
 2class threadpool{
 3    public:
 4        //thread_number是线程池中线程的数量
 5        //max_requests是请求队列中最多允许的、等待处理的请求的数量
 6        //connPool是数据库连接池指针
 7        threadpool(connection_pool *connPool, int thread_number = 8, int max_request = 10000);
 8        ~threadpool();
 9
10        //像请求队列中插入任务请求
11        bool append(T* request);
12
13    private:
14        //工作线程运行的函数
15        //它不断从工作队列中取出任务并执行之
16        static void *worker(void *arg);
17
18        void run();
19
20    private:
21        //线程池中的线程数
22        int m_thread_number;
23
24        //请求队列中允许的最大请求数
25        int m_max_requests;
26
27        //描述线程池的数组，其大小为m_thread_number
28        pthread_t *m_threads;
29
30        //请求队列
31        std::list<T *>m_workqueue;    
32
33        //保护请求队列的互斥锁    
34        locker m_queuelocker;
35
36        //是否有任务需要处理
37        sem m_queuestat;
38
39        //是否结束线程
40        bool m_stop;
41
42        //数据库连接池
43        connection_pool *m_connPool;  
44};

线程池的创建与回收

构造函数中创建线程池,pthread_create函数中将类的对象作为参数传递给静态函数(worker),在静态函数中引用这个对象,并调用其动态方法(run)。

具体的，类对象传递时用this指针，传递给静态函数后，将其转换为线程池类，并调用私有成员函数run。

 1 template<typename T>
 2 threadpool<T>::threadpool( connection_pool *connPool, int thread_number, int        
   max_requests) : m_thread_number(thread_number), m_max_requests(max_requests), 
   m_stop(false), m_threads(NULL),m_connPool(connPool){
 3
 4    if(thread_number<=0||max_requests<=0)
 5        throw std::exception();
 6
 7    //线程id初始化
 8    m_threads=new pthread_t[m_thread_number];
 9    if(!m_threads)
10        throw std::exception();
11    for(int i=0;i<thread_number;++i)
12    {
13        //循环创建线程，并将工作线程按要求进行运行
14        if(pthread_create(m_threads+i,NULL,worker,this)!=0){
15            delete [] m_threads;
16            throw std::exception();
17        }
18
19        //将线程进行分离后，不用单独对工作线程进行回收
20        if(pthread_detach(m_threads[i])){
21            delete[] m_threads;
22            throw std::exception();
23        }
24    }
25}

向请求队列中添加任务

 1 template<typename T>
 2 bool threadpool<T>::append(T* request)
 3 {
 4    m_queuelocker.lock();
 5
 6    //根据硬件，预先设置请求队列的最大值
 7    if(m_workqueue.size()>m_max_requests)
 8    {
 9        m_queuelocker.unlock();
10        return false;
11    }
12
13    //添加任务
14    m_workqueue.push_back(request);
15    m_queuelocker.unlock();
16
17    //信号量提醒有任务要处理
18    m_queuestat.post();
19    return true;
20 }

线程处理函数

内部访问私有成员函数run，完成线程处理要求。

1 template<typename T>
2 void* threadpool<T>::worker(void* arg){
3
4    //将参数强转为线程池类，调用成员方法
5    threadpool* pool=(threadpool*)arg;
6    pool->run();
7    return pool;
8 }

run执行函数

主要实现，工作线程从请求队列中取出某个任务进行处理，注意线程同步。

 1 template<typename T>
 2 void threadpool<T>::run()
 3 {
 4    while(!m_stop)
 5    {    
 6        //信号量等待
 7        m_queuestat.wait();
 8
 9        //被唤醒后先加互斥锁
10        m_queuelocker.lock();
11        if(m_workqueue.empty())
12        {
13            m_queuelocker.unlock();
14            continue;
15        }
16
17        //从请求队列中取出第一个任务
18        //将任务从请求队列删除
19        T* request=m_workqueue.front();
20        m_workqueue.pop_front();
21        m_queuelocker.unlock();
22        if(!request)
23            continue;
24
25        //从连接池中取出一个数据库连接
26        request->mysql = m_connPool->GetConnection();
27
28        //process(模板类中的方法,这里是http类)进行处理
29        request->process();
30
31        //将数据库连接放回连接池
32        m_connPool->ReleaseConnection(request->mysql);
33    }
34 }

HTTP连接处理

一、epoll

epoll_create函数

#include <sys/epoll.h>
int epoll_create(int size)

创建一个指示epoll内核事件表的文件描述符，该描述符将用作其他epoll系统调用的第一个参数，size不起作用。

epoll_ctl函数

#include <sys/epoll.h>
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)

该函数用于操作内核事件表监控的文件描述符上的事件：注册、修改、删除

epfd：为epoll_creat的句柄
op：表示动作，用3个宏来表示：
- EPOLL_CTL_ADD (注册新的fd到epfd)，
- EPOLL_CTL_MOD (修改已经注册的fd的监听事件)，
- EPOLL_CTL_DEL (从epfd删除一个fd)；
event：告诉内核需要监听的事件

上述event是epoll_event结构体指针类型，表示内核所监听的事件，具体定义如下：

struct epoll_event {
__uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};

events描述事件类型，其中epoll事件类型有以下几种
- EPOLLIN：表示对应的文件描述符可以读（包括对端SOCKET正常关闭）
- EPOLLOUT：表示对应的文件描述符可以写
- EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）
- EPOLLERR：表示对应的文件描述符发生错误
- EPOLLHUP：表示对应的文件描述符被挂断；
- EPOLLET：将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)而言的
- EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里

epoll_wait函数

#include <sys/epoll.h>
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout)

该函数用于等待所监控文件描述符上有事件的产生，返回就绪的文件描述符个数

events：用来存内核得到事件的集合，
maxevents：告之内核这个events有多大，这个maxevents的值不能大于创建epoll_create()时的size，
timeout：是超时时间
- -1：阻塞
- 0：立即返回，非阻塞
- >0：指定毫秒
返回值：成功返回有多少文件描述符就绪，时间到时返回0，出错返回-1

select/poll/epoll函数

调用函数
- select和poll都是一个函数，epoll是一组函数
文件描述符数量
- select通过线性表描述文件描述符集合，文件描述符有上限，一般是1024，但可以修改源码，重新编译内核，不推荐
- poll是链表描述，突破了文件描述符上限，最大可以打开文件的数目
- epoll通过红黑树描述，最大可以打开文件的数目，可以通过命令ulimit -n number修改，仅对当前终端有效
将文件描述符从用户传给内核
- select和poll通过将所有文件描述符拷贝到内核态，每次调用都需要拷贝
- epoll通过epoll_create建立一棵红黑树，通过epoll_ctl将要监听的文件描述符注册到红黑树上
内核判断就绪的文件描述符
- select和poll通过遍历文件描述符集合，判断哪个文件描述符上有事件发生
- epoll_create时，内核除了帮我们在epoll文件系统里建了个红黑树用于存储以后epoll_ctl传来的fd外，还会再建立一个list链表，用于存储准备就绪的事件，当epoll_wait调用时，仅仅观察这个list链表里有没有数据即可。
- epoll是根据每个fd上面的回调函数(中断函数)判断，只有发生了事件的socket才会主动的去调用 callback函数，其他空闲状态socket则不会，若是就绪事件，插入list
应用程序索引就绪文件描述符
- select/poll只返回发生了事件的文件描述符的个数，若知道是哪个发生了事件，同样需要遍历
- epoll返回的发生了事件的个数和结构体数组，结构体包含socket的信息，因此直接处理返回的数组即可
工作模式
- select和poll都只能工作在相对低效的LT模式下
- epoll则可以工作在ET高效模式，并且epoll还支持EPOLLONESHOT事件，该事件能进一步减少可读、可写和异常事件被触发的次数。
应用场景
- 当所有的fd都是活跃连接，使用epoll，需要建立文件系统，红黑书和链表对于此来说，效率反而不高，不如selece和poll
- 当监测的fd数目较小，且各个fd都比较活跃，建议使用select或者poll
- 当监测的fd数目非常大，成千上万，且单位时间只有其中的一部分fd处于就绪状态，这个时候使用epoll能够明显提升性能

ET、LT、EPOLLONESHOT

LT水平触发模式
- epoll_wait检测到文件描述符有事件发生，则将其通知给应用程序，应用程序可以不立即处理该事件。
- 当下一次调用epoll_wait时，epoll_wait还会再次向应用程序报告此事件，直至被处理
ET边缘触发模式
- epoll_wait检测到文件描述符有事件发生，则将其通知给应用程序，应用程序必须立即处理该事件
- 必须要一次性将数据读取完，使用非阻塞I/O，读取到出现eagain
EPOLLONESHOT
- 一个线程读取某个socket上的数据后开始处理数据，在处理过程中该socket上又有新数据可读，此时另一个线程被唤醒读取，此时出现两个线程处理同一个socket
- 我们期望的是一个socket连接在任一时刻都只被一个线程处理，通过epoll_ctl对该文件描述符注册epolloneshot事件，一个线程处理socket时，其他线程将无法处理，当该线程处理完后，需要通过epoll_ctl重置epolloneshot事件

二、HTTP报文格式

HTTP报文分为请求报文和响应报文两种，每种报文必须按照特有格式生成，才能被浏览器端识别。其中，浏览器端向服务器发送的为请求报文，服务器处理后返回给浏览器端的为响应报文。

请求报文

HTTP请求报文由请求行（request line）、请求头部（header）、空行和请求数据四个部分组成。

其中，请求分为两种，GET和POST，具体的：

GET

 1    GET /562f25980001b1b106000338.jpg HTTP/1.1
 2    Host:img.mukewang.com
 3    User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64)
 4    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36
 5    Accept:image/webp,image/*,*/*;q=0.8
 6    Referer:http://www.imooc.com/
 7    Accept-Encoding:gzip, deflate, sdch
 8    Accept-Language:zh-CN,zh;q=0.8
 9    空行
10    请求数据为空

POST

1    POST / HTTP1.1
2    Host:www.wrox.com
3    User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)
4    Content-Type:application/x-www-form-urlencoded
5    Content-Length:40
6    Connection: Keep-Alive
7    空行
8    name=Professional%20Ajax&publisher=Wiley

请求行，用来说明请求类型,要访问的资源以及所使用的HTTP版本。
GET说明请求类型为GET，/562f25980001b1b106000338.jpg(URL)为要访问的资源，该行的最后一部分说明使用的是HTTP1.1版本。

请求头部，紧接着请求行（即第一行）之后的部分，用来说明服务器要使用的附加信息。

HOST，给出请求资源所在服务器的域名。

User-Agent，HTTP客户端程序的信息，该信息由你发出请求使用的浏览器来定义,并且在每个请求中自动发送等。

Accept，说明用户代理可处理的媒体类型。

Accept-Encoding，说明用户代理支持的内容编码。

Accept-Language，说明用户代理能够处理的自然语言集。

Content-Type，说明实现主体的媒体类型。

Content-Length，说明实现主体的大小。

Connection，连接管理，可以是Keep-Alive或close。

空行，请求头部后面的空行是必须的即使第四部分的请求数据为空，也必须有空行。

请求数据也叫主体，可以添加任意的其他数据。

响应报文

HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

 1 HTTP/1.1 200 OK
 2 Date: Fri, 22 May 2009 06:07:21 GMT
 3 Content-Type: text/html; charset=UTF-8
 4 空行
 5 <html>
 6      <head></head>
 7      <body>
 8            <!--body goes here-->
 9      </body>
10 </html>

状态行，由HTTP协议版本号，状态码，状态消息三部分组成。
第一行为状态行，（HTTP/1.1）表明HTTP版本为1.1版本，状态码为200，状态消息为OK。

消息报头，用来说明客户端要使用的一些附加信息。
第二行和第三行为消息报头，Date:生成响应的日期和时间；Content-Type:指定了MIME类型的HTML(text/html),编码类型是UTF-8。

空行，消息报头后面的空行是必须的。

响应正文，服务器返回给客户端的文本信息。空行后面的html部分为响应正文。

三、HTTP状态码

HTTP有5种类型的状态码，具体的：

1xx：指示信息--表示请求已接收，继续处理。
2xx：成功--表示请求正常处理完毕。
- 200 OK：客户端请求被正常处理。
- 206 Partial content：客户端进行了范围请求。
3xx：重定向--要完成请求必须进行更进一步的操作。
- 301 Moved Permanently：永久重定向，该资源已被永久移动到新位置，将来任何对该资源的访问都要使用本响应返回的若干个URI之一。
- 302 Found：临时重定向，请求的资源现在临时从不同的URI中获得。
4xx：客户端错误--请求有语法错误，服务器无法处理请求。
- 400 Bad Request：请求报文存在语法错误。
- 403 Forbidden：请求被服务器拒绝。
- 404 Not Found：请求不存在，服务器上找不到请求的资源。
5xx：服务器端错误--服务器处理请求出错。
- 500 Internal Server Error：服务器在执行请求时出现错误。

四、有限状态机

有限状态机，是一种抽象的理论模型，它能够把有限个变量描述的状态变化过程，以可构造可验证的方式呈现出来。比如，封闭的有向图。

有限状态机可以通过if-else,switch-case和函数指针来实现，从软件工程的角度看，主要是为了封装逻辑。

带有状态转移的有限状态机示例代码。

 1 STATE_MACHINE(){
 2    State cur_State = type_A;
 3    while(cur_State != type_C){
 4        Package _pack = getNewPackage();
 5        switch(){
 6            case type_A:
 7                process_pkg_state_A(_pack);
 8                cur_State = type_B;
 9                break;
10            case type_B:
11                process_pkg_state_B(_pack);
12                cur_State = type_C;
13                break;
14        }
15    }
16 }

该状态机包含三种状态：type_A, type_B 和 type_C。其中，type_A是初始状态，type_C是结束状态。

状态机的当前状态记录在 cur_State 变量中，逻辑处理时，状态机先通过 getNewPackage 获取数据包，然后根据当前状态对数据进行处理，处理完成后，状态机通过改变 cur_State 完成状态转移。

有限状态机一种逻辑单元内部的一种高效编程方法，在服务器编程中，服务器可以根据不同状态或者消息类型进行相应的处理逻辑，使得程序逻辑清晰易懂。

五、http处理流程

首先对http报文处理的流程进行简要介绍，然后具体介绍http类的定义和服务器接收http请求的具体过程。

http报文处理流程

浏览器端发出http连接请求，主线程创建http对象接收请求并将所有数据读入对应buffer，将该对象插入任务队列，工作线程从任务队列中取出一个任务进行处理。
工作线程取出任务后，调用process_read函数，通过主、从状态机对请求报文进行解析。
解析完之后，跳转do_request函数生成响应报文，通过process_write写入buffer，返回给浏览器端。

http类

这一部分代码在TinyWebServer/http/http_conn.h中，主要是http类的定义。

1 class http_conn{
2    public:
3        //设置读取文件的名称m_real_file大小
4        static const int FILENAME_LEN=200;
5        //设置读缓冲区m_read_buf大小
6        static const int READ_BUFFER_SIZE=2048;
7        //设置写缓冲区m_write_buf大小
8        static const int WRITE_BUFFER_SIZE=1024;
9        //报文的请求方法，本项目只用到GET和POST
10        enum METHOD{GET=0,POST,HEAD,PUT,DELETE,TRACE,OPTIONS,CONNECT,PATH};
11        //主状态机的状态
12        enum CHECK_STATE{CHECK_STATE_REQUESTLINE=0,CHECK_STATE_HEADER,CHECK_STATE_CONTENT};
13        //报文解析的结果
14        enum HTTP_CODE{NO_REQUEST,GET_REQUEST,BAD_REQUEST,NO_RESOURCE,FORBIDDEN_REQUEST                 
          ,FILE_REQUEST,INTERNAL_ERROR,CLOSED_CONNECTION};
15        //从状态机的状态
16        enum LINE_STATUS{LINE_OK=0,LINE_BAD,LINE_OPEN};
17
18    public:
19        http_conn(){}
20        ~http_conn(){}
21
22    public:
23        //初始化套接字地址，函数内部会调用私有方法init
24        void init(int sockfd,const sockaddr_in &addr);
25        //关闭http连接
26        void close_conn(bool real_close=true);
27        void process();
28        //读取浏览器端发来的全部数据
29        bool read_once();
30        //响应报文写入函数
31        bool write();
32        sockaddr_in *get_address(){
33            return &m_address;  
34        }
35        //同步线程初始化数据库读取表
36        void initmysql_result();
37        //CGI使用线程池初始化数据库表
38        void initresultFile(connection_pool *connPool);
39
40    private:
41        void init();
42        //从m_read_buf读取，并处理请求报文
43        HTTP_CODE process_read();
44        //向m_write_buf写入响应报文数据
45        bool process_write(HTTP_CODE ret);
46        //主状态机解析报文中的请求行数据
47        HTTP_CODE parse_request_line(char *text);
48        //主状态机解析报文中的请求头数据
49

最低0.47元/天解锁文章

冰镇雪糕

关注

20
点赞
踩
82

收藏

觉得还不错? 一键收藏
2
评论
Linux下C++轻量级Web服务器

系统框架使用线程池 + 非阻塞socket + epoll(ET和LT均实现) + 事件处理(Reactor和模拟Proactor均实现)的并发模型使用状态机解析HTTP请求报文，支持解析GET和POST请求访问服务器数据库实现web端用户注册、登录功能，可以请求服务器图片和视频文件利用单例模式与阻塞队列实现异步的日志系统，记录服务器运行状态；经Webbench压力测试可以实现上万的并发连接数据交换利用标准库容器封装char，实现自动增长的缓冲区； ..
复制链接

扫一扫