反向代理服务器tengine学习小记

最新推荐文章于 2023-01-18 16:12:43 发布

行走的code

最新推荐文章于 2023-01-18 16:12:43 发布

阅读量1.3k

点赞数 1

分类专栏： server web 服务器 nginx tegine 文章标签： nginx tegine 反向代理负载均衡

本文链接：https://blog.csdn.net/fyhailin/article/details/79430368

版权

server 同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

服务器

4 篇文章 0 订阅

订阅专栏

web

2 篇文章 0 订阅

订阅专栏

一、背景

首先，nginx是其实就是一个代理服务器，但是可以在很多场景应用，最常用的就是反向代理，负载均衡等。这在我们的日常的场景中应用非常广泛，当然也有在此基础上进行改造的，比如说淘宝的tengine服务器，就是在nginx的基础上进行改进得到的，其源码是完全开源的，笔者工作的时候，正好也是要用到tengine的作为反向代理和负载均衡服务器，因此去了解一下nginx服务器最基本的使用原理，本文介绍的方式很简单，就是让你了解一下什么是nginx，怎么用等。

二、nginx服务器的安装

如果我们要了解一个新的软件或者框架，最好的办法就是先去使用它，只有你去使用它了，才能真正的懂他，先看最简单的安装方式，这个非常的简单。这里做了一个简单的介绍不一一列举了。

1. sudo wget http://tengine.taobao.org/download/tengine-2.2.1.tar.gz
2. sudo tar -zxvf tengine-2.2.1.tar.gz
3. cd tengine-2.2.1
5. sudo yum -y install pcre-devel
6. sudo ./configure --prefix=/dts/tengine --with-openssl=/dts/openssl-1.1.0f
7. sudo make
8. sudo make install

使用也非常的简单，先执行wget下载源码，然后解压，配置一下，最后在make编译和安装一下即可，这个网上也有大量的教程。在这个过程中可能会遇到错误，比如逼着在编译的时候发现报错

./configure: error: the HTTP rewrite module requires the PCRE library.

这是因为缺少相应的openssl的组件，需要安装一下组件即可，执行一下下面的命令进行安装

sudo yum -y install pcre-devel openssl openssl-devel

这样就算安装完成了，那么我先看下nginx的目录

简单介绍一下这里面的几个目录，一个conf这个是要配置所有的信息，包括反向代理的机器，域名以及对应的负载均衡都在这里面配置，其中nginx.conf是非常重要的文件，这个在后面会讲到，基本上安装完成之后，就围绕着这个配置文件转了。在看看html文件夹，这里面主要存放的就是你的静态文件，默认他们会给两个文件一个index.html，现在我们修改一下，在里面加一句hello tengine。。。

在往下log文件夹，这个里面主要是存放tengine的日志信息，include主要存放一些脚本信息,sbin文件夹主要用来启动tengine的。这样我们先启动tengine服务器启动也非常的简单，进入到sbin目录下面

sudo ./nginx

没有报错说明启动成功我看看下进程

然后在浏览器访问tengine所在的机器的ip，看到了结果，是不是就是访问到html下面的index.html文件了，那个Hello tengine是是不是就是刚才添加的。

三、nginx服务器的基本架构和原理

到这里，一个反向代理服务器就搭建好了，是不是非常的简单，那么问题来了？tengine是怎么知道呢，当我访问这个ip的时候，给我转到这个地址，然后在访问对应页面？

首先通过下面的图来了解一下上面的是怎么实现的，因为上面访问的是完全的静态页面，没有涉及到其他的服务器，相对来说比较简单，客户端通过代理，在这里tengine就是充当了一个代理服务器，把我输入的地址转换到服务器所在的地址。然后进行访问。这么说可能比较拗口，举个简单的例子，

服务器的ip：192.168.0.113 ，如果在服务器上部署了程序，端口80，那么在本地访问的地址应该是：192.168.0.113:80/index.html才能访问到这个地址，

而加上代理之后，加入代理所在的服务器地址是：192.168.0.111，端口同样也是80，那么我们访问的格式就变成了192.168.0.111：80/index.html这样就到了代理服务器上，代理服务器在进行转发到web服务器，变成192.168.0.111：80/index.html--->192.168.0.113:80/index.html也就是说多了一层处理。

那么这么做有什么好处，费这么大劲又要加服务器，链路又变长了，看似很麻烦，其实好处太多了。比如做负载均衡、反向代理都很方便。关键是外面还不知道web服务器的真实ip，增加了安全性。

上面这个图就是典型方反向代理的流程图，客户端一般通过DNS进行访问，DNS经过解析之后指向对应的代理服务器的地址，代理服务器监听都这个端口之后，进行转发，转到对应的web服务器上面，然后将结果返回给客户端。tengine的转发规则非常的丰富，可以通过正则进行匹配，才去不同的转发策略。

这是其中的一个非常重要的功能，另外一个非常重要的功能就是负载均衡，tengine提供不同的负载均衡的策略：内置策略和外置策略，而内置策略又分为不同的算法，比如轮询，加权，hash等等。这个在后面会讲到，下面通过这个图，先了解tengine的负载均衡。举个例子：

现在有三台服务器192.168.0.1，192.168.0.2，192.168.0.3，那么通过反向代理服务器，可以安装一定的比例，把请求分配到不同的服务器上，比如说30%到192.168.0.1，20%192.168.0.2，50%的请求到192.168.0.3这个服务器上。可以说是非常的方便和高效。

当然tengine远远不止这两个功能，比如说缓存服务器，邮件带你服务器等等，这里就不一一介绍了。

四、nginx的配置详解

看到上面的应该大致了解了一下tengine服务器是怎么去做到的这些的呢，我们该如何去实现呢，这里面就是用到了nginx的配置文件，ngxin.conf文件，基本上所有的配置都是在这里完成的，反向代理，负载均衡等等。先打开这个配置文件，看看，其中有些功能被注释掉掉了。

#user  nobody;
worker_processes  1;

#error_log  logs/error.log;
#error_log  logs/error.log  notice;
#error_log  logs/error.log  info;
#error_log  "pipe:rollback logs/error_log interval=1d baknum=7 maxsize=2G";

#pid        logs/nginx.pid;


events {
    worker_connections  1024;
}

# load modules compiled as Dynamic Shared Object (DSO)
#
#dso {
#    load ngx_http_fastcgi_module.so;
#    load ngx_http_rewrite_module.so;
#}

http {
    include       mime.types;
    default_type  application/octet-stream;

    #log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
    #                  '$status $body_bytes_sent "$http_referer" '
    #                  '"$http_user_agent" "$http_x_forwarded_for"';

    #access_log  logs/access.log  main;
    #access_log  "pipe:rollback logs/access_log interval=1d baknum=7 maxsize=2G"  main;

    sendfile        on;
    #tcp_nopush     on;

    #keepalive_timeout  0;
    keepalive_timeout  65;

    #gzip  on;

    server {
        listen       80;
        server_name  localhost;

        #charset koi8-r;

        #access_log  logs/host.access.log  main;
        #access_log  "pipe:rollback logs/host.access_log interval=1d baknum=7 maxsize=2G"  main;

        location / {
            root   html;
            index  index.html index.htm;
        }

        #error_page  404              /404.html;

        # redirect server error pages to the static page /50x.html
        #
        error_page   500 502 503 504  /50x.html;
        location = /50x.html {
            root   html;
        }

        # proxy the PHP scripts to Apache listening on 127.0.0.1:80
        #
        #location ~ \.php$ {
        #    proxy_pass   http://127.0.0.1;
        #}

        # pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
        #
        #location ~ \.php$ {
        #    root           html;
        #    fastcgi_pass   127.0.0.1:9000;
        #    fastcgi_index  index.php;
        #    fastcgi_param  SCRIPT_FILENAME  /scripts$fastcgi_script_name;
        #    include        fastcgi_params;
        #}

        # deny access to .htaccess files, if Apache's document root
        # concurs with nginx's one
        #
        #location ~ /\.ht {
        #    deny  all;
        #}
    }


    # another virtual host using mix of IP-, name-, and port-based configuration
    #
    #server {
    #    listen       8000;
    #    listen       somename:8080;
    #    server_name  somename  alias  another.alias;

    #    location / {
    #        root   html;
    #        index  index.html index.htm;
    #    }
    #}


    # HTTPS server
    #
    #server {
    #    listen       443 ssl;
    #    server_name  localhost;

    #    ssl_certificate      cert.pem;
    #    ssl_certificate_key  cert.key;

    #    ssl_session_cache    shared:SSL:1m;
    #    ssl_session_timeout  5m;

    #    ssl_ciphers  HIGH:!aNULL:!MD5;
    #    ssl_prefer_server_ciphers  on;

    #    location / {
    #        root   html;
    #        index  index.html index.htm;
    #    }
    #}

}

看上去好像挺乱的，其实这里里面有几个重要的关键字，掌握这些关键字，就能掌握文件的结构。首先我们看到的有{}括起来的这些，比如events，http，server和location，看上去好像也就这几个。先连接下这是啥东西

events:这个是配置nginx服务器与用户的网络连接，比如说每个进程的最大连接数，请求，序列化等等。
http块：这是一个比较核心的配置项，其中的server就是配置对应的服务器的信息，包括日志，格式，缓存代理，等都在这里配置
server：配置虚拟主机的相关参数，一个http中可以有多个server

location:配置转发的路由地址，已经各种页面的处理情况。

那么接下来，我们来详细讲解一下这个配置文件：

首先看到最开头的：

#user  nobody;   首先看下这个地方，这个是配置运行的用户和组，在window可以不需要使用，在mac或者linux一定要指定
worker_processes  1;  nginx的进程数量，一般的设置是等于cpu的总核心数，太高的会影响机器的资源，太低影响性能。

#error_log  logs/error.log;   这个地方是配置全局的日志信息，当然在每个server里面也可以配置局部的信息
#error_log  logs/error.log  notice;
#error_log  logs/error.log  info;
#error_log  "pipe:rollback logs/error_log interval=1d baknum=7 maxsize=2G";

上面这些参数的配置都是全局的，下面看看event的配置

events {
    worker_connections  1024;
}

这里主要配置事件参考模型，有很多种，不然use poll 而参数worker_connection这个则是配置每个进程允许的最大连接数。

这些基本上都是全局，配置一次之后基本上需要改动。下面http模块才是核心需要掌握的地方。

http {
    include       mime.types;  这个是模块指令，可以将配置文件拆分并引用，可以减少住配置文件的复杂度
    default_type  application/octet-stream;  这个是默认的文件类型

    #log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
    #                  '$status $body_bytes_sent "$http_referer" '
    #                  '"$http_user_agent" "$http_x_forwarded_for"';    //这个就是配置日志的格式

    #access_log  logs/access.log  main;    日志的默认值和地址
    #access_log  "pipe:rollback logs/access_log interval=1d baknum=7 maxsize=2G"  main;

    sendfile        on;   允许sendfile方式传输文件，默认为off
    #tcp_nopush     on;    
    keepalive_timeout  65;   连接超时时间
    #gzip  on;  开启gizp格式输出
    server {
        listen       80;
        server_name  localhost;
        #charset koi8-r;
        #access_log  logs/host.access.log  main;
        #access_log  "pipe:rollback logs/host.access_log interval=1d baknum=7 maxsize=2G"  main;

        location / {
            root   html;
            index  index.html index.htm;
        }
        #error_page  404              /404.html;
        # redirect server error pages to the static page /50x.html
        error_page   500 502 503 504  /50x.html;
        location = /50x.html {
            root   html;
        }
    }
}

1.$remote_addr 与$http_x_forwarded_for 用以记录客户端的ip地址； 2.$remote_user ：用来记录客户端用户名称； 3.$time_local ：用来记录访问时间与时区；4.$request ：用来记录请求的url与http协议；

5.$status ：用来记录请求状态；成功是200， 6.$body_bytes_s ent ：记录发送给客户端文件主体内容大小；7.$http_referer ：用来记录从那个页面链接访问过来的； 8.$http_user_agent ：记录客户端浏览器的相关信息；

上面没有讲解server模块的配置和location的配置，这个两个我们最常用的配置，接下来看看：

#虚拟主机的配置
server {
  # 监听端口 ，这里是监听80端口，如果写成listen 443就是监听443端口，可以配置多个server，监听不同的端口
  listen 80;  #域名可以有多个，用空格隔开
   server_name  localhost;  监听的域名或者地址，这里用的是localhost,则表示监听本机
  ssi on;  # Server Side Include，通常称为服务器端嵌入
}

看到没有，上面监听80端口，也就是所有的80请求都会被拦截，然后匹配域名，知道符合对应的域名进行下一步操作。那么监听请求之后，我们怎么处理呢？那么就是location要做的事情了，我们原生的location地址，很简单就是/这个代表匹配所有的地址，就是通常所说的根目录。当请求过来之后，后面没有任何相对路径，就直接到这个地址下面，其中root表示根目录所在。

 location / {
            root   html;
            index  index.html index.htm;
        }

location支持正则表达式匹配，格式是这样的 location [=|~|~*|^~] /uri/ { … }，这个当两个地址冲突的时候也是有匹配顺序的，首先匹配=，其次匹配^~，再往后按文件中的顺序的正则匹配，最后交给/匹配，当匹配成功的时候停止。下面举个例子，这个也是参考网友的例子，发现解释的比较好

location  = / {
  # 精确匹配 / ，主机名后面不能带任何字符串
  [ configuration A ]
}

location  / {
  # 因为所有的地址都以 / 开头，所以这条规则将匹配到所有请求
  # 但是正则和最长字符串会优先匹配
  [ configuration B ]
}

location /documents/ {
  # 匹配任何以 /documents/ 开头的地址，匹配符合以后，还要继续往下搜索
  # 只有后面的正则表达式没有匹配到时，这一条才会采用这一条
  [ configuration C ]
}

location ~ /documents/Abc {
  # 匹配任何以 /documents/Abc 开头的地址，匹配符合以后，还要继续往下搜索
  # 只有后面的正则表达式没有匹配到时，这一条才会采用这一条
  [ configuration CC ]
}

location ^~ /images/ {
  # 匹配任何以 /images/ 开头的地址，匹配符合以后，停止往下搜索正则，采用这一条。
  [ configuration D ]
}

location ~* \.(gif|jpg|jpeg)$ {
  # 匹配所有以 gif,jpg或jpeg 结尾的请求
  # 然而，所有请求 /images/ 下的图片会被 config D 处理，因为 ^~ 到达不了这一条正则
  [ configuration E ]
}

location /images/ {
  # 字符匹配到 /images/，继续往下，会发现 ^~ 存在
  [ configuration F ]
}

location /images/abc {
  # 最长字符匹配到 /images/abc，继续往下，会发现 ^~ 存在
  # F与G的放置顺序是没有关系的
  [ configuration G ]
}

location ~ /images/abc/ {
  # 只有去掉 config D 才有效：先最长匹配 config G 开头的地址，继续往下搜索，匹配到这一条正则，采用
    [ configuration H ]
}

location ~* /js/.*/\.js

/ -> config A
精确完全匹配，即使/index.html也匹配不了
/downloads/download.html -> config B
匹配B以后，往下没有任何匹配，采用B
/images/1.gif -> configuration D
匹配到F，往下匹配到D，停止往下
/images/abc/def -> config D
最长匹配到G，往下匹配D，停止往下
你可以看到任何以/images/开头的都会匹配到D并停止，FG写在这里是没有任何意义的，H是永远轮不到的，这里只是为了说明匹配顺序
/documents/document.html -> config C
匹配到C，往下没有任何匹配，采用C
/documents/1.jpg -> configuration E
匹配到C，往下正则匹配到E
/documents/Abc.jpg -> config CC
最长匹配到C，往下正则顺序匹配到CC，不会往下到E

以上的这个例子发现还是比较清楚。在加上一个我在实际中的匹配规则，

 location = /test/list.json {
            proxy_pass   http://192.168.0.1;
        }

当我的请求http://192.168.0.3/test.list.json访问请求过来的时候，会被这个location匹配到，并且转发到http://192.168.0.1/test/list.json这个请求上，从哪访问对应的服务器，找到我们都要地址。

最后一个tengine怎么实现的负载均衡的呢？

行走的code

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录