10.1 web服务器的实现
1.编写函数解析http请求
- GET /hello.html HTTP/1.1\r\n
- 将上述字符串分为三部分解析出来
2.编写函数根据文件后缀,返回对应的文件类型
3.sscanf - 读取格式化的字符串中的数据
- 使用正则表达式拆分
- [^ ]的用法
4.通过浏览器请求目录数据
- 读指定目录内容
- opendir
- readdir
- closedir
- scandir - 扫描dir目录下(不包括子目录)内容
5.http重定向
- 消息报头:
- Location:path
- 状态码:302
6.http中数据特殊字符编码解码问题
- 编码
- 解码
void http_respond_head(int cfd, char* type)
{
char buf[1024];
// 状态行
sprintf(buf, "http/1.1 200 OK\r\n");
write(cfd, buf, strlen(buf));
// 消息报头
sprintf(buf, "Content-Type: %s\r\n", type);
write(cfd, buf, strlen(buf));
// 空行
write(cfd, "\r\n", 2);
}
void main()
{
// 修改进程的工作目录
chdir(path);
// 创建监听的套接字
int lfd = socket(af_inet, sock_stream, 0);
// 绑定
struct sockaddr_in serv;
serv.family = af_inet;
serv.port = htons(8989);
bind(lfd, &serv, len);
// 监听
listen();
int cfd = accept();
// 读数据
read(cfd, buf, sizeof(buf));
// 先将buf中的请求行拿出来
// GET /hello.c http/1.1
char method[12], path[1024], protocol[12];
// 得到文件名
char* file = path+1;
// 打开文件
int fdd = open(file, O_RDONLY);
int len = 0;
http_respond_head(cfd, "text/plain");
// 循环读数据
while( (len=read(fdd, buf, sizeof(buf))) > 0)
{
// 数据发送给浏览器
write(fdd, buf, len));
}
}
10.2 数据转码
url在数据传输过程中不支持中文,需要转码
- 汉字
- 特殊字符
- 查看
manpage
man ascii
- 需要处理可见字符
- 从space开始(32)
- 前31个不可见
- 不需要转换的特殊字符
.
_
*
/
~
0-9
a-z
A-Z
- 需要转换的字符使用其16进制的值前加%表示
可以在shell下通过unicode工具查看
安装unicode
sudo apt-get install unicode
0
10.3 正则表达式
http://deerchao.net/tutorials/regex/regex.htm
http://www.jb51.net/tools/regexsc.htm
10.4 epoll模型服务器
// main.c
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
#include "epoll_server.h"
int main(int argc, const char* argv[])
{
if(argc < 3)
{
printf("eg: ./a.out port path\n");
exit(1);
}
// 端口
int port = atoi(argv[1]);
// 修改进程的工作目录, 方便后续操作
int ret = chdir(argv[2]);
if(ret == -1)
{
perror("chdir error");
exit(1);
}
// 启动epoll模型
epoll_run(port);
return 0;
}
// epoll_server.c
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
#include <sys/types.h>
#include <string.h>
#include <sys/epoll.h>
#include <arpa/inet.h>
#include <fcntl.h>
#include <dirent.h>
#include <sys/stat.h>
#include <ctype.h>
#include "epoll_server.h"
#define MAXSIZE 2000
void epoll_run(int port)
{
// 创建一个epoll树的根节点
int epfd = epoll_create(MAXSIZE);
if(epfd == -1)
{
perror("epoll_create error");
exit(1);
}
// 添加要监听的节点
// 先添加监听lfd
int lfd = init_listen_fd(port, epfd);
// 委托内核检测添加到树上的节点
struct epoll_event all[MAXSIZE];
while(1)
{
int ret = epoll_wait(epfd, all, MAXSIZE, -1);
if(ret == -1)
{
perror("epoll_wait error");
exit(1);
}
// 遍历发生变化的节点
for(int i=0; i<ret; ++i)
{
// 只处理读事件, 其他事件默认不处理
struct epoll_event *pev = &all[i];
if(!(pev->events & EPOLLIN))
{
// 不是读事件
continue;
}
if(pev->data.fd == lfd)
{
// 接受连接请求
do_accept(lfd, epfd);
}
else
{
// 读数据
do_read(pev->data.fd, epfd);
}
}
}
}
// 读数据
void do_read(int cfd, int epfd)
{
// 将浏览器发过来的数据, 读到buf中
char line[1024] = {0};
// 读请求行
int len = get_line(cfd, line, sizeof(line));
if(len == 0)
{
printf("客户端断开了连接...\n");
// 关闭套接字, cfd从epoll上del
disconnect(cfd, epfd);
}
else
{
printf("请求行数据: %s", line);
printf("============= 请求头 ============\n");
// 还有数据没读完
// 继续读
while(len)
{
char buf[1024] = {0};
len = get_line(cfd, buf, sizeof(buf));
printf("-----: %s", buf);
}
printf("============= The End ============\n");
}
// 请求行: get /xxx http/1.1
// 判断是不是get请求
if(strncasecmp("get", line, 3) == 0)
{
// 处理http请求
http_request(line, cfd);
// 关闭套接字, cfd从epoll上del
disconnect(cfd, epfd);
}
}
// 断开连接的函数
void disconnect(int cfd, int epfd)
{
int ret = epoll_ctl(epfd, EPOLL_CTL_DEL, cfd, NULL);
if(ret == -1)
{
perror("epoll_ctl del cfd error");
exit(1);
}
close(cfd);
}
// http请求处理
void http_request(const char* request, int cfd)
{
// 拆分http请求行
// get /xxx http/1.1
char method[12], path[1024], protocol[12];
sscanf(request, "%[^ ] %[^ ] %[^ ]", method, path, protocol);
printf("method = %s, path = %s, protocol = %s\n", method, path, protocol);
// 转码 将不能识别的中文乱码 - > 中文
// 解码 %23 %34 %5f
decode_str(path, path);
// 处理path /xx
// 去掉path中的/
char* file = path+1;
// 如果没有指定访问的资源, 默认显示资源目录中的内容
if(strcmp(path, "/") == 0)
{
// file的值, 资源目录的当前位置
file = "./";=
}
// 获取文件属性
struct stat st;
int ret = stat(file, &st);
if(ret == -1)
{
// show 404
send_respond_head(cfd, 404, "File Not Found", ".html", -1);
send_file(cfd, "404.html");
}
// 判断是目录还是文件
// 如果是目录
if(S_ISDIR(st.st_mode))
{
// 发送头信息
send_respond_head(cfd, 200, "OK", get_file_type(".html"), -1);
// 发送目录信息
send_dir(cfd, file);
}
else if(S_ISREG(st.st_mode))
{
// 文件
// 发送消息报头
send_respond_head(cfd, 200, "OK", get_file_type(file), st.st_size);
// 发送文件内容
send_file(cfd, file);
}
}
// 发送目录内容
void send_dir(int cfd, const char* dirname)
{
// 拼一个html页面<table></table>
char buf[4094] = {0};
sprintf(buf, "<html><head><title>目录名: %s</title></head>", dirname);
sprintf(buf+strlen(buf), "<body><h1>当前目录: %s</h1><table>", dirname);
char enstr[1024] = {0};
char path[1024] = {0};
// 目录项二级指针
struct dirent** ptr;
int num = scandir(dirname, &ptr, NULL, alphasort);
// 遍历
for(int i=0; i<num; ++i)
{
char* name = ptr[i]->d_name;
// 拼接文件的完整路径
sprintf(path, "%s/%s", dirname, name);
printf("path = %s ===================\n", path);
struct stat st;
stat(path, &st);
encode_str(enstr, sizeof(enstr), name);
// 如果是文件
if(S_ISREG(st.st_mode))
{
sprintf(buf+strlen(buf),
"<tr><td><a href=\"%s\">%s</a></td><td>%ld</td></tr>",
enstr, name, (long)st.st_size);
}
// 如果是目录
else if(S_ISDIR(st.st_mode))
{
sprintf(buf+strlen(buf),
"<tr><td><a href=\"%s/\">%s/</a></td><td>%ld</td></tr>",
enstr, name, (long)st.st_size);
}
send(cfd, buf, strlen(buf), 0);
memset(buf, 0, sizeof(buf));
// 字符串拼接
}
sprintf(buf+strlen(buf), "</table></body></html>");
send(cfd, buf, strlen(buf), 0);
printf("dir message send OK!!!!\n");
#if 0
// 打开目录
DIR* dir = opendir(dirname);
if(dir == NULL)
{
perror("opendir error");
exit(1);
}
// 读目录
struct dirent* ptr = NULL;
while( (ptr = readdir(dir)) != NULL )
{
char* name = ptr->d_name;
}
closedir(dir);
#endif
}
// 发送响应头
void send_respond_head(int cfd, int no, const char* desp, const char* type, long len)
{
char buf[1024] = {0};
// 状态行
sprintf(buf, "http/1.1 %d %s\r\n", no, desp);
send(cfd, buf, strlen(buf), 0);
// 消息报头
sprintf(buf, "Content-Type:%s\r\n", type);
sprintf(buf+strlen(buf), "Content-Length:%ld\r\n", len);
send(cfd, buf, strlen(buf), 0);
// 空行
send(cfd, "\r\n", 2, 0);
}
// 发送文件
void send_file(int cfd, const char* filename)
{
// 打开文件
int fd = open(filename, O_RDONLY);
if(fd == -1)
{
// show 404
return;
}
// 循环读文件
char buf[4096] = {0};
int len = 0;
while( (len = read(fd, buf, sizeof(buf))) > 0 )
{
// 发送读出的数据
send(cfd, buf, len, 0);
}
if(len == -1)
{
perror("read file error");
exit(1);
}
close(fd);
}
// 解析http请求消息的每一行内容
int get_line(int sock, char *buf, int size)
{
int i = 0;
char c = '\0';
int n;
while ((i < size - 1) && (c != '\n'))
{
n = recv(sock, &c, 1, 0);
if (n > 0)
{
if (c == '\r')
{
n = recv(sock, &c, 1, MSG_PEEK);
if ((n > 0) && (c == '\n'))
{
recv(sock, &c, 1, 0);
}
else
{
c = '\n';
}
}
buf[i] = c;
i++;
}
else
{
c = '\n';
}
}
buf[i] = '\0';
return i;
}
// 接受新连接处理
void do_accept(int lfd, int epfd)
{
struct sockaddr_in client;
socklen_t len = sizeof(client);
int cfd = accept(lfd, (struct sockaddr*)&client, &len);
if(cfd == -1)
{
perror("accept error");
exit(1);
}
// 打印客户端信息
char ip[64] = {0};
printf("New Client IP: %s, Port: %d, cfd = %d\n",
inet_ntop(AF_INET, &client.sin_addr.s_addr, ip, sizeof(ip)),
ntohs(client.sin_port), cfd);
// 设置cfd为非阻塞
int flag = fcntl(cfd, F_GETFL);
flag |= O_NONBLOCK;
fcntl(cfd, F_SETFL, flag);
// 得到的新节点挂到epoll树上
struct epoll_event ev;
ev.data.fd = cfd;
// 边沿非阻塞模式
ev.events = EPOLLIN | EPOLLET;
int ret = epoll_ctl(epfd, EPOLL_CTL_ADD, cfd, &ev);
if(ret == -1)
{
perror("epoll_ctl add cfd error");
exit(1);
}
}
int init_listen_fd(int port, int epfd)
{
// 创建监听的套接字
int lfd = socket(AF_INET, SOCK_STREAM, 0);
if(lfd == -1)
{
perror("socket error");
exit(1);
}
// lfd绑定本地IP和port
struct sockaddr_in serv;
memset(&serv, 0, sizeof(serv));
serv.sin_family = AF_INET;
serv.sin_port = htons(port);
serv.sin_addr.s_addr = htonl(INADDR_ANY);
// 端口复用
int flag = 1;
setsockopt(lfd, SOL_SOCKET, SO_REUSEADDR, &flag, sizeof(flag));
int ret = bind(lfd, (struct sockaddr*)&serv, sizeof(serv));
if(ret == -1)
{
perror("bind error");
exit(1);
}
// 设置监听
ret = listen(lfd, 64);
if(ret == -1)
{
perror("listen error");
exit(1);
}
// lfd添加到epoll树上
struct epoll_event ev;
ev.events = EPOLLIN;
ev.data.fd = lfd;
ret = epoll_ctl(epfd, EPOLL_CTL_ADD, lfd, &ev);
if(ret == -1)
{
perror("epoll_ctl add lfd error");
exit(1);
}
return lfd;
}
// 16进制数转化为10进制
int hexit(char c)
{
if (c >= '0' && c <= '9')
return c - '0';
if (c >= 'a' && c <= 'f')
return c - 'a' + 10;
if (c >= 'A' && c <= 'F')
return c - 'A' + 10;
return 0;
}
/*
* 这里的内容是处理%20之类的东西!是"解码"过程。
* %20 URL编码中的‘ ’(space)
* %21 '!' %22 '"' %23 '#' %24 '$'
* %25 '%' %26 '&' %27 ''' %28 '('......
* 相关知识html中的‘ ’(space)是 
*/
void encode_str(char* to, int tosize, const char* from)
{
int tolen;
for (tolen = 0; *from != '\0' && tolen + 4 < tosize; ++from)
{
if (isalnum(*from) || strchr("/_.-~", *from) != (char*)0)
{
*to = *from;
++to;
++tolen;
}
else
{
sprintf(to, "%%%02x", (int) *from & 0xff);
to += 3;
tolen += 3;
}
}
*to = '\0';
}
void decode_str(char *to, char *from)
{
for ( ; *from != '\0'; ++to, ++from )
{
if (from[0] == '%' && isxdigit(from[1]) && isxdigit(from[2]))
{
*to = hexit(from[1])*16 + hexit(from[2]);
from += 2;
}
else
{
*to = *from;
}
}
*to = '\0';
}
// 通过文件名获取文件的类型
const char *get_file_type(const char *name)
{
char* dot;
// 自右向左查找‘.’字符, 如不存在返回NULL
dot = strrchr(name, '.');
if (dot == NULL)
return "text/plain; charset=utf-8";
if (strcmp(dot, ".html") == 0 || strcmp(dot, ".htm") == 0)
return "text/html; charset=utf-8";
if (strcmp(dot, ".jpg") == 0 || strcmp(dot, ".jpeg") == 0)
return "image/jpeg";
if (strcmp(dot, ".gif") == 0)
return "image/gif";
if (strcmp(dot, ".png") == 0)
return "image/png";
if (strcmp(dot, ".css") == 0)
return "text/css";
if (strcmp(dot, ".au") == 0)
return "audio/basic";
if (strcmp( dot, ".wav" ) == 0)
return "audio/wav";
if (strcmp(dot, ".avi") == 0)
return "video/x-msvideo";
if (strcmp(dot, ".mov") == 0 || strcmp(dot, ".qt") == 0)
return "video/quicktime";
if (strcmp(dot, ".mpeg") == 0 || strcmp(dot, ".mpe") == 0)
return "video/mpeg";
if (strcmp(dot, ".vrml") == 0 || strcmp(dot, ".wrl") == 0)
return "model/vrml";
if (strcmp(dot, ".midi") == 0 || strcmp(dot, ".mid") == 0)
return "audio/midi";
if (strcmp(dot, ".mp3") == 0)
return "audio/mpeg";
if (strcmp(dot, ".ogg") == 0)
return "application/ogg";
if (strcmp(dot, ".pac") == 0)
return "application/x-ns-proxy-autoconfig";
return "text/plain; charset=utf-8";
}
// epoll_server.h
#ifndef _EPOLL_SERVER_H
#define _EPOLL_SERVER_H
int init_listen_fd(int port, int epfd);
void epoll_run(int port);
void do_accept(int lfd, int epfd);
void do_read(int cfd, int epfd);
int get_line(int sock, char *buf, int size);
void disconnect(int cfd, int epfd);
void http_request(const char* request, int cfd);
void send_respond_head(int cfd, int no, const char* desp, const char* type, long len);
void send_file(int cfd, const char* filename);
void send_dir(int cfd, const char* dirname);
void encode_str(char* to, int tosize, const char* from);
void decode_str(char *to, char *from);
const char *get_file_type(const char *name);
#endif
10.6 sscanf()
/*
函数描述: 读取格式化的字符串中的数据。
函数原型:
*/
int sscanf(
const char *buffer,
const char *format, [ argument ] ...
);
取到指定字符为止的字符串。如在下例中,取遇到空格为止字符串。
sscanf("123456 abcdedf", "%[^ ]", buf);
printf("%s\n", buf);
// 结果为:123456
取仅包含指定字符集的字符串。如在下例中,取仅包含1到9和小写字母的字符串。
sscanf("123456abcdedfBCDEF", "%[1-9a-z]", buf);
printf("%s\n", buf);
// 结果为:123456abcdedf
取到指定字符集为止的字符串。如在下例中,取遇到大写字母为止的字符串。
sscanf("123456abcdedfBCDEF", "%[^A-Z]", buf);
printf("%s\n", buf);
// 结果为:123456abcdedf
10.7 scandir()
/*
dirp
- 当前要扫描的目录
namelist
- struct dirent** ptr;
- struct dirent* ptr[];
- &ptr;
filter
- 过滤器
- NULL
compar
文件名显示的时候, 指定排序规则
alphasort
versionsort
*/
int scandir(
const char *dirp,
struct dirent ***namelist,
int (*filter)(const struct dirent *),
int (*compar)(const struct dirent **, const struct dirent **)
);
10.8 strftime()
头文件: time.h
函数功能: 将时间格式化,或者说格式化一个时间字符串
函数原型:
size_t strftime(
char *strDest,
size_t maxsize,
const char *format,
const struct tm *timeptr
);
format
- %a 星期几的简写
- %A 星期几的全称
- %b 月份的简写
- %B 月份的全称
- %c 标准的日期的时间串
- %C 年份的前两位数字
- %d 十进制表示的每月的第几天
- %D 月/天/年
- %e 在两字符域中,十进制表示的每月的第几天
- %F 年-月-日
- %g 年份的后两位数字,使用基于周的年
- %G 年份,使用基于周的年
- %h 简写的月份名
- %H 24小时制的小时
- %I 12小时制的小时
- %j 十进制表示的每年的第几天
- %m 十进制表示的月份
- %M 十时制表示的分钟数
- %p 本地的AM或PM的等价显示
- %r 12小时的时间
- %R 显示小时和分钟:hh:mm
- %S 十进制的秒数
- %t 水平制表符
- %T 显示时分秒:hh:mm:ss
- %u 每周的第几天,星期一为第一天 (值从1到7,星期一为1)
- %U 第年的第几周,把星期日作为第一天(值从0到53)
- %V 每年的第几周,使用基于周的年
- %w 十进制表示的星期几(值从0到6,星期天为0)
- %W 每年的第几周,把星期一做为第一天(值从0到53)
- %x 标准的日期串
- %X 标准的时间串
- %y 不带世纪的十进制年份(值从0到99)
- %Y 带世纪部分的十制年份
- %z,%Z 时区名称,如果不能得到时区名称则返回空字符。