网络爬虫七-HTTP

最新推荐文章于 2019-06-21 11:27:41 发布

秋刀鱼之味

最新推荐文章于 2019-06-21 11:27:41 发布

阅读量279

点赞数

分类专栏： Linux/Unix 文章标签：网络爬虫

Linux/Unix 专栏收录该内容

67 篇文章 0 订阅

订阅专栏

处理HTTP状态码
HTTP状态码（HTTP Status Code）是用以表示网页服务器HTTP响应状态的3位数字代码。所有状态码的第一个数字代表了响应的五种状态之一。
他们分别是：
消息（1字头）
成功（2字头）
这一类型的状态码，代表请求已成功被服务器接收、理解、并接受。
重定向（3字头）
这类状态码代表需要客户端采取进一步的操作才能完成请求。通常，这些状态码用来重定向，后续的请求地址（重定向目标）在本次响应的 Location 域中指明。
请求错误（4字头）
这类的状态码代表了客户端看起来可能发生了错误，妨碍了服务器的处理。除非响应的是一个 HEAD 请求，否则服务器就应该返回一个解释当前错误状况的实体，以及这是临时的还是永久性的状况。这些状态码适用于任何请求方法。浏览器应当向用户显示任何包含在此类错误响应中的实体内容。
如果错误发生时客户端正在传送数据，那么使用TCP的服务器实现应当仔细确保在关闭客户端与服务器之间的连接之前，客户端已经收到了包含错误信息的数据包。如果客户端在收到错误信息后继续向服务器发送数据，服务器的TCP栈将向客户端发送一个重置数据包，以清除该客户端所有还未识别的输入缓冲，以免这些数据被服务器上的应用程序读取并干扰后者。
服务器错误（5字头）
这类状态码代表了服务器在处理请求的过程中有错误或者异常状态发生，也有可能是服务器意识到以当前的软硬件资源无法完成对请求的处理。除非这是一个HEAD 请求，否则服务器应当包含一个解释当前错误状态以及这个状况是临时的还是永久的解释信息实体。浏览器应当向用户展示任何在当前响应中被包含的实体。
最常见的状态码是200 OK、202 Accepted、300 Multiple Choices、404 Not Found、500 Internal Server Error等。
其它有兴趣可以查阅RFC文档。
处理HTTP请求头
http请求头，HTTP客户程序（例如浏览器），向服务器发送请求的时候必须指明请求类型（一般是GET或者POST）。如有必要，客户程序还可以选择发送其他的请求头。
HTTP客户程序（例如浏览器），向服务器发送请求的时候必须指明请求类型（一般是GET或者POST）。如有必要，客户程序还可以选择发送其他的请求头。大多数请求头并不是必需的，但Content-Length除外。对于POST请求来说Content-Length必须出现。下面是一些最常见的请HTTP请求头概述
Accept：浏览器可接受的MIME类型。
Accept-Charset：浏览器可接受的字符集。
Accept-Encoding：浏览器能够进行解码的数据编码方式，比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间。
Accept-Language：浏览器所希望的语言种类，当服务器能够提供一种以上的语言版本时要用到。
Authorization：授权信息，通常出现在对服务器发送的WWW-Authenticate头的应答中。
Connection：表示是否需要持久连接。如果Servlet看到这里的值为“Keep-Alive”，或者看到请求使用的是HTTP 1.1（HTTP 1.1默认进行持久连接），它就可以利用持久连接的优点，当页面包含多个元素时（例如Applet，图片），显著地减少下载所需要的时间。要实现这一点，Servlet需要在应答中发送一个Content-Length头，最简单的实现方法是：先把内容写入ByteArrayOutputStream，然后在正式写出内容之前计算它的大小。
Content-Length：表示请求消息正文的长度。
Cookie：这是最重要的请求头信息之一
From：请求发送者的email地址，由一些特殊的Web客户程序使用，浏览器不会用到它。
Host：初始URL中的主机和端口。
If-Modified-Since：只有当所请求的内容在指定的日期之后又经过修改才返回它，否则返回304“Not Modified”应答。
Pragma：指定“no-cache”值表示服务器必须返回一个刷新后的文档，即使它是代理服务器而且已经有了页面的本地拷贝。
Referer：包含一个URL，用户从该URL代表的页面出发访问当前请求的页面。
User-Agent：浏览器类型，如果Servlet返回的内容与浏览器类型有关则该值非常有用。
UA-Pixels，UA-Color，UA-OS，UA-CPU：由某些版本的IE浏览器所发送的非标准的请求头，表示屏幕大小、颜色深度、操作系统和CPU类型。

int send_request(int fd, void *arg)  
{  
    int need, begin, n;  
    char request[1024] = {0};  
    Url *url = (Url *)arg;  

    sprintf(request, "GET /%s HTTP/1.0\r\n"  
            "Host: %s\r\n"  
            "Accept: */*\r\n"  
            "Connection: Keep-Alive\r\n"  
            "User-Agent: Mozilla/5.0 (compatible; Qteqpidspider/1.0;)\r\n"  
            "Referer: %s\r\n\r\n", url->path, url->domain, url->domain);  

    need = strlen(request);  
    begin = 0;  
    while(need) {  
        n = write(fd, request+begin, need);  
        if (n <= 0) {  
            if (errno == EAGAIN) { //write buffer full, delay retry  
                usleep(1000);  
                continue;  
            }  
            SPIDER_LOG(SPIDER_LEVEL_WARN, "Thread %lu send ERROR: %d", pthread_self(), n);  
            free_url(url);  
            close(fd);  
            return -1;  
        }  
        begin += n;  
        need -= n;  
    }  
    return 0;  
}

处理HTTP应答头
Web服务器的HTTP应答一般由以下几项构成：一个状态行，一个或多个应答头，一个空行，内容文档。设置HTTP应答头往往和设置状态行中的状态代码结合起来。例如，有好几个表示“文档位置已经改变”的状态代码都伴随着一个Location头，而401（Unauthorized）状态代码则必须伴随一个WWW-Authenticate头。
然而，即使在没有设置特殊含义的状态代码时，指定应答头也是很有用的。应答头可以用来完成：设置Cookie，指定修改日期，指示浏览器按照指定的间隔刷新页面，声明文档的长度以便利用持久HTTP连接，……等等许多其他任务。
设置应答头最常用的方法是HttpServletResponse的setHeader，该方法有两个参数，分别表示应答头的名字和值。和设置状态代码相似，设置应答头应该在发送任何文档内容之前进行。
HTTP应答头说明：
Allow 服务器支持哪些请求方法（如GET、POST等）。
Content-Encoding 文档的编码（Encode）方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压缩文档能够显著地减少HTML文档的下载时间。Java的GZIPOutputStream可以很方便地进行gzip压缩，但只有Unix上的Netscape和Windows上的IE 4、IE 5才支持它。因此，Servlet应该通过查看Accept-Encoding头（即request.getHeader(“Accept-Encoding”)）检查浏览器是否支持gzip，为支持gzip的浏览器返回经gzip压缩的HTML页面，为其他浏览器返回普通页面。
Content-Length 表示内容长度。只有当浏览器使用持久HTTP连接时才需要这个数据。如果你想要利用持久连接的优势，可以把输出文档写入ByteArrayOutputStram，完成后查看其大小，然后把该值放入Content-Length头，最后通过byteArrayStream.writeTo(response.getOutputStream()发送内容。
Content-Type 表示后面的文档属于什么MIME类型。Servlet默认为text/plain，但通常需要显式地指定为text/html。由于经常要设置Content-Type，因此HttpServletResponse提供了一个专用的方法setContentType。
Date 当前的GMT时间。你可以用setDateHeader来设置这个头以避免转换时间格式的麻烦。
Expires 应该在什么时候认为文档已经过期，从而不再缓存它？

void * recv_response(void * arg)  
{  
    begin_thread();  


    int i, n, trunc_head = 0, len = 0;  
    char * body_ptr = NULL;  
    evso_arg * narg = (evso_arg *)arg;  
    Response *resp = (Response *)malloc(sizeof(Response));  
    resp->header = NULL;  
    resp->body = (char *)malloc(HTML_MAXLEN);  
    resp->body_len = 0;  
    resp->url = narg->url;  


    regex_t re;  
    if (regcomp(&re, HREF_PATTERN, 0) != 0) {/* compile error */  
        SPIDER_LOG(SPIDER_LEVEL_ERROR, "compile regex error");  
    }  


    SPIDER_LOG(SPIDER_LEVEL_INFO, "Crawling url: %s/%s", narg->url->domain, narg->url->path);  


    while(1) {  
        /* what if content-length exceeds HTML_MAXLEN? */  
        n = read(narg->fd, resp->body + len, 1024);  
        if (n < 0) {  
            if (errno == EAGAIN || errno == EWOULDBLOCK || errno == EINTR) {   
                /** 
                 * TODO: Why always recv EAGAIN? 
                 * should we deal EINTR 
                 */  
                //SPIDER_LOG(SPIDER_LEVEL_WARN, "thread %lu meet EAGAIN or EWOULDBLOCK, sleep", pthread_self());  
                usleep(100000);  
                continue;  
            }   
            SPIDER_LOG(SPIDER_LEVEL_WARN, "Read socket fail: %s", strerror(errno));  
            break;  


        } else if (n == 0) {  
            /* finish reading */  
            resp->body_len = len;  
            if (resp->body_len > 0) {  
                extract_url(&re, resp->body, narg->url);  
            }  
            /* deal resp->body */  
            for (i = 0; i < (int)modules_post_html.size(); i++) {  
                modules_post_html[i]->handle(resp);  
            }  


            break;  


        } else {  
            //SPIDER_LOG(SPIDER_LEVEL_WARN, "read socket ok! len=%d", n);  
            len += n;  
            resp->body[len] = '\0';  


            if (!trunc_head) {  
                if ((body_ptr = strstr(resp->body, "\r\n\r\n")) != NULL) {  
                    *(body_ptr+2) = '\0';  
                    resp->header = parse_header(resp->body);  
                    if (!header_postcheck(resp->header)) {  
                        goto leave; /* modulues filter fail */  
                    }  
                    trunc_head = 1;  


                    /* cover header */  
                    body_ptr += 4;  
                    for (i = 0; *body_ptr; i++) {  
                        resp->body[i] = *body_ptr;  
                        body_ptr++;  
                    }  
                    resp->body[i] = '\0';  
                    len = i;  
                }   
                continue;  
            }  
        }  
    }  


leave:  
    close(narg->fd); /* close socket */  
    free_url(narg->url); /* free Url object */  
    regfree(&re); /* free regex object */  
    /* free resp */  
    free(resp->header->content_type);  
    free(resp->header);  
    free(resp->body);  
    free(resp);  


    end_thread();  
    return NULL;  
}

秋刀鱼之味

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫七-HTTP

处理HTTP状态码 HTTP状态码（HTTP Status Code）是用以表示网页服务器HTTP响应状态的3位数字代码。所有状态码的第一个数字代表了响应的五种状态之一。他们分别是：消息（1字头）成功（2字头）这一类型的状态码，代表请求已成功被服务器接收、理解、并接受。重定向（3字头）这类状态码代表需要客户端采取进一步的操作才能完成请求。通常，这些状态码用来重定向，后续的请
复制链接

扫一扫