代理服务器中的内容防拷贝技术

最新推荐文章于 2022-07-05 16:08:21 发布

aweth0me

最新推荐文章于 2022-07-05 16:08:21 发布

阅读量6.3k

点赞数 2

分类专栏：高性能server 架构与设计

本文链接：https://blog.csdn.net/brainkick/article/details/9843009

版权

高性能server 同时被 2 个专栏收录

44 篇文章 7 订阅

订阅专栏

架构与设计

32 篇文章 8 订阅

订阅专栏

代理服务器，广义上包括正向反向代理，httpcache等等，他们都要处理一个问题，就是从上游取得数据让后发往下游。这块有许多细节要处理，特别是如何避免内容的多次拷贝。ngixn在这方面做得很不错，我们拿它来分析下，希望能学到一些东西。
nginx的这块处理主要发生在两个函数，或者说一对函数：ngx_event_pipe_read_upstream和ngx_event_pipe_write_downstream。这里不讨论他们在upstream扮演的角色，我们只看他们是如何漂亮的操作这些复杂的流程，协调各种buffer和chain。

在读取后端数据时，nginx使用的是recv_chain，这种接口使用的是chain，所以在调用之前毫无疑问需要准备相应的chain来作为接收道具，其中一个便是p->free_raw_bufs(p类型为ngx_event_pipe_t)。这些chain对于recv_chain来说并不一定能完全用完，nginx在这么一个循环里面处理：

        cl = chain;
        p->free_raw_bufs = NULL;

        while (cl && n > 0) {

            ngx_event_pipe_remove_shadow_links(cl->buf);

            size = cl->buf->end - cl->buf->last;

            if (n >= size) {
                cl->buf->last = cl->buf->end;
                if (p->input_filter(p, cl->buf) == NGX_ERROR) {
                    return NGX_ABORT;
                }

                n -= size;
                ln = cl;
                cl = cl->next;
                ngx_free_chain(p->pool, ln);

            } else {
                cl->buf->last += n;
                n = 0;
            }
        }

        if (cl) {
            for (ln = cl; ln->next; ln = ln->next) { /* void */ }

            ln->next = p->free_raw_bufs;
            p->free_raw_bufs = cl;
        }

上面这块代码里面，将当前recv_chain用完的chain回收到pool里去，剩下的重新放回p->free_raw_bufs(即代码中的ngx_free_chain(p->pool, ln))。这里有个问题就是，recv_chain用的那些chain，不是还没有进一步处理嘛，怎么就回收了？其实回收的是chain而不是buffer，两者的身份不一样，chain相当于火车皮，buffer才是实际运输的原料。所以这里火车皮确实是用完了，我们还到回收器中备用。那么buffer呢？看这句p->input_filter(p, cl->buf)，这里面就是处理的实际buffer，我们以ngx_http_proxy_copy_filter为例来看看里面到底发生了什么，当然含有其他input_filter。

static ngx_int_t
ngx_http_proxy_copy_filter(ngx_event_pipe_t *p, ngx_buf_t *buf)
{
    ngx_buf_t           *b;
    ngx_chain_t         *cl;
    ngx_http_request_t  *r;

    if (buf->pos == buf->last) {
        return NGX_OK;
    }

    if (p->free) {
        cl = p->free;
        b = cl->buf;
        p->free = cl->next;
        ngx_free_chain(p->pool, cl);

    } else {
        b = ngx_alloc_buf(p->pool);
        if (b == NULL) {
            return NGX_ERROR;
        }
    }

    ngx_memcpy(b, buf, sizeof(ngx_buf_t));
    b->shadow = buf;
    b->tag = p->tag;
    b->last_shadow = 1;
    b->recycled = 1;
    buf->shadow = b;

    cl = ngx_alloc_chain_link(p->pool);
    if (cl == NULL) {
        return NGX_ERROR;
    }

    cl->buf = b;
    cl->next = NULL;

    if (p->in) {
        *p->last_in = cl;
    } else {
        p->in = cl;
    }
    p->last_in = &cl->next;

    if (p->length == -1) {
        return NGX_OK;
    }

    ...
    return NGX_OK;
}

这里面实际上是为每个buffer生成了一个所谓的影子(即shadow buffer)，然后将这个shadow挂到p->in上面。当然开始的时候，这个shadow buffer需要我们alloc空间，后面p->free中会有很多现成的buffer给我们用。这里注意shadow buffer的设置：

    ngx_memcpy(b, buf, sizeof(ngx_buf_t)); 
    b->shadow = buf;
    b->tag = p->tag;
    b->last_shadow = 1;
    b->recycled = 1;
    buf->shadow = b;

原始buffer，我们称为raw buffer，整体赋值给影子buffer(成员也被一并拷贝)，即shadow buffer。然后两者通过shadow成员进行了相互关联。那么怎么区分谁是raw buffer，谁才是“真正”的影子呢？答案是last_shadow，这个诡异的东西下面会进一步讨论。

到这里我们看到，从后端读取的原始数据，还在原来的buffer里面。现在又多了出来一串影子，他们搬上新火车皮，搭上了p->in这趟列车。在继续讨论之前，先把这个p的几个成员贴出来：

struct ngx_event_pipe_s {
    ...
    ngx_chain_t       *free_raw_bufs;
    ngx_chain_t       *in;
    ngx_chain_t      **last_in;

    ngx_chain_t       *out;
    ngx_chain_t       *free;
    ngx_chain_t       *busy;
    ...
}

在后续接收内容，申请更多raw buffer受阻时，会将p->in中的数据写到临时文件中，这些曾经的shadow(指p->in)，也会被搁到p->free中，这个东西可以看做是shadow buffer的回收站(当然在回收的时候，shadow之间需要断绝关系，因为那都是些往事了)，当你需要一个buffer做shadow时，可以先来这里瞧瞧有没有货，没有再去求助于pool_alloc。还有那些原先保存数据的raw buffer也应该还到free_raw_bufs中，内存得到了重用。而写到磁盘文件中的数据，也会抽象成buffer(in_file标记)，只不过它会挂到p->out上去。结构中的last_in不用说了，就是指向p->in中的最后一个chain。

通过上面的分析，我们得知待处理的buffer可能在p->in或者p->out中，接下来就是将它们发送出去了，你会看到ngx_event_pipe_write_to_downstream就是专业干这活的。这里主要描述大体的轮廓和个别细节，而不去注释代码。不是我懒，而且当你对一个过程的轮廓有所了解之后，读代码会变得异常容易，这样我省去了指头儿的磨损，你也能学到更多的东西，而不只是“hi honey, open your mouth!”。

先发p->out。为什么？本来数据在p->in中，后面不是由于特殊状况都写到临时文件中(即p->out管理的)嘛。会不会p->out有数据，p->in里面也有呢？当然会，正是由于p->out解围，才腾出了数量可观的buffer来给后续的处理使用。实际的发送动作，则是通过p->output_filter(p->output_ctx, out)来完成。这个就不说了，说起来没完，不懂的可以google。

当然了我们想发的数据可能不会一次发完，也就是说p->in或者p->out的数据可能一部分发出去一部分却没有。已经发出去的，相关的chain会放到p->free中，被憋住的那些放到p->busy中(busy!着急啊。。)。这些事都发生在ngx_chain_update_chains中，可以去仔细读读代码。很明显，这些p->free里面都是些shadow buffer，马甲而已。既然数据已经发去出了，实际的raw buffer也应该被回收到p->free_raw_bufs。

总之这两块差不多就这些大的流程，如果还有人对这块流程有些迷糊，希望我画画图来进一步描述一下的话，说明你可能在某些地方给暂时绊住了，再读读代码或者留言讨论下，反正有一个事实就是我很懒，不想画图(说实话这块画画图好理解一些！)。

剩下的就是细节了，比如buf结构体中的各种标记，这里将它们列出(引自 http://tengine.taobao.org/book/chapter_4.html)：

        unsigned         recycled:1; /* 内存可以被输出并回收 */
        unsigned         in_file:1;  /* buffer的内容在文件中 */
        /* 马上全部输出buffer的内容, gzip模块里面用得比较多 */
        unsigned         flush:1;
        /* 
         * 基本上是一段输出链的最后一个buffer带的标志，标示可以输出，
         * 有些零长度的buffer也可以置该标志
         */
        unsigned         sync:1;
        /* 所有请求里面最后一块buffer，包含子请求 */
        unsigned         last_buf:1;
        /* 当前请求输出链的最后一块buffer         */
        unsigned         last_in_chain:1;
        /* shadow链里面的最后buffer，可以释放buffer了 */
        unsigned         last_shadow:1;
        /* 是否是暂存文件 */
        unsigned         temp_file:1;

对于这些标记，怎么确定它们的用处和含义呢？没什么别的办法，第一，找到哪些地方对他们进行了设置(置位与清零)。第二，找到哪些地方对他们进行了判断处理，当然还需要对这些标记在这两个地方的上下文有所了解，总之挺麻烦的。依我看里面那个sync标记最含糊，字面上是同步，但是在使用的时候，却丝毫没发现跟同步有什么关系，****(脏话)。

还有一个函数ngx_event_pipe_remove_shadow_links，它里面有个处理：

ngx_event_pipe_remove_shadow_links(ngx_buf_t *buf)
{
    ...
    while (!b->last_shadow) {
        next = b->shadow;

        b->temporary = 0;
        b->recycled = 0;

        b->shadow = NULL;
        b = next;
    }
    ...
}

看起来这些buf似乎通过shadow构成了一个链，这怎么解释？前面的分析里面完全没有相关的过程。哈哈，看这里：ngx_http_proxy_chunked_filter

在这个函数里面，每个含有原始数据的raw buf(即ngx_http_proxy_chunked_filter第二个参数buf)中，可能包含多个chunk块，他们每一个都用一个新的buf来管理，彼此之间通过shadow连在一起，而最后一个buf(被设置了last_shadow)会跟这个raw buf建立shadow关系。为啥这个buf才是真正的raw buf的shadow呢？因为真正的shadow buf的成员跟raw buf是完全镜像的，而这些管理中间chunk的那些buf虽然也自称是“shadow”，但是他们的却只是映射了raw buf的一部分，半成品而已。换句话说真正的shadow都是last_shadow。

由于chunk造成的这种内部关系对外界是透明的(是一种input_filter)，所以我们在拿到一些free buf来用处理的时候，要去除这种潜在的shadow关联，因为那都是些过去的事，账一直没有算清罢了。而ngx_event_pipe_remove_shadow_links就是担当这种清理工的角色。

nginx的这套对接方式只是使用在将上游的响应转发到下游的阶段，对于含有请求体的请求，如post请求，却没用使用这套机制，我在想为什么？应该是这样子吧，nginx将上游数据往下游分发是无条件的，拿到请求以后要尽可能快的给下游吐数据。而对于post请求，可能需要得到上游的批准("100-continue"响应)，又需要尽快将下游提交的数据接受完。一般情况下不需要第一时间去跟上游沟通，nginx就选择先将请求体给接收完，然后再做后面的事。不过也有很多需求是希望将读到的内容第一个时间交给上游，那怎么办？

tengine在他们1.5.0版本里实现了no buffered request body sent，即收到部分请求体即可以转发给后端服务器，作者是姚伟斌。

Tengine-1.5.0 [2013-07-31]
...
Feature: 增加了请求体不缓存到磁盘的机制，HTTP代理和FastCGI模块收到部分请求体即可以转发给后端服务器 [yaoweibin]
...

我粗略看了下实现，大概的样子是在request里引入了free，busy，out等chain成员，然后模仿了一些前面我们讨论的关于上游往下游转发的一些逻辑。更多细节可以到 http://tengine.taobao.org/changelog_cn.html#1_5_0查看。

在我们的cache系统中，没有去参考nginx这套逻辑。为什么呢，难道你们有货？还真有！我们用了系统调用splice，所谓的零拷贝技术。这东西最开始出现在linux 2.6.17版本中，这个版本是在2006年release的，而我们cache项目刚好也是在那个时候开始搞，刚好排上用场！何必再去用nginx那套复杂机制，自找没趣。反观nginx，最早开源出来大概是在2002年，那个时候还是linux 2.6.0x的时代，实在没有多少牛B的东西可用。我认为Igor也是去搜寻过的，估计两手空空，所以才决定自己搞起。nginx的这套逻辑，淘宝给起了一个名字叫buffer防拷贝技术，刚开始听说的时候瞬间被唬住了。后来才知道就是上面说的那套东西。。。

扯远了。这里稍微说一下splice的用法:

splice() moves data between two file descriptors without copying between kernel address space and user address space. It transfers up to len bytes of data from the file descriptor fd_in to the file descriptor fd_out, where one of the descriptors must refer to a pipe.

/* splice必须用到pipe，所以开始的时候你要初始化一个pipe */
int pdf[2];
pipe(pfd);

/* 假设rfd接收数据的socket fd， wfd是输出数据的socket fd */

/* 将rfd的数据读到pfd[1]中，当然数据转移的过程发生在内核 */
splice(rfd, NULL, pfd[1], NULL, size, flags);

/* 从pfd[0]中，可以将rfd写入的数据发送到wfd */
splice(pfd[0], NULL, wfd, NULL, size, flags);

其他的参数请查阅man手册，网上也有很多示例代码，大家可以学习下。哎，技术的进步让码农干活越来越轻松了。此刻要是没有内核支持的那些零拷贝技术，你有信心写出igro那套逻辑吗？反正我没有，如果你有那个能力，请麻烦留言告诉我，我们做个朋友。

aweth0me

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
代理服务器中的内容防拷贝技术

代理服务器，广义上包括正向反向代理，httpcache等等，他们都要处理一个问题，就是从上游取得数据让后发往下游。这块有许多细节要处理，特别是如何避免内容的多次拷贝。nginx在这方面做得很不错，我们拿它来分析下，希望能学到一些东西。
复制链接

扫一扫

专栏目录