一、背景
首先,nginx是其实就是一个代理服务器,但是可以在很多场景应用,最常用的就是反向代理,负载均衡等。这在我们的日常的场景中应用非常广泛,当然也有在此基础上进行改造的,比如说淘宝的tengine服务器,就是在nginx的基础上进行改进得到的,其源码是完全开源的,笔者工作的时候,正好也是要用到tengine的作为反向代理和负载均衡服务器,因此去了解一下nginx服务器最基本的使用原理,本文介绍的方式很简单,就是让你了解一下什么是nginx,怎么用等。
二、nginx服务器的安装
如果我们要了解一个新的软件或者框架,最好的办法就是先去使用它,只有你去使用它了,才能真正的懂他,先看最简单的安装方式,这个非常的简单。这里做了一个简单的介绍不一一列举了。
1. sudo wget http://tengine.taobao.org/download/tengine-2.2.1.tar.gz
2. sudo tar -zxvf tengine-2.2.1.tar.gz
3. cd tengine-2.2.1
5. sudo yum -y install pcre-devel
6. sudo ./configure --prefix=/dts/tengine --with-openssl=/dts/openssl-1.1.0f
7. sudo make
8. sudo make install
使用也非常的简单,先执行wget下载源码,然后解压,配置一下,最后在make编译和安装一下即可,这个网上也有大量的教程。在这个过程中可能会遇到错误,比如逼着在编译的时候发现报错
./configure: error: the HTTP rewrite module requires the PCRE library.
这是因为缺少相应的openssl的组件,需要安装一下组件即可,执行一下下面的命令进行安装
sudo yum -y install pcre-devel openssl openssl-devel
这样就算安装完成了,那么我先看下nginx的目录
简单介绍一下这里面的几个目录,一个conf这个是要配置所有的信息,包括反向代理的机器,域名以及对应的负载均衡都在这里面配置,其中nginx.conf是非常重要的文件,这个在后面会讲到,基本上安装完成之后,就围绕着这个配置文件转了。在看看html文件夹,这里面主要存放的就是你的静态文件,默认他们会给两个文件一个index.html,现在我们修改一下,在里面加一句hello tengine。。。
在往下log文件夹,这个里面主要是存放tengine的日志信息,include主要存放一些脚本信息,sbin文件夹主要用来启动tengine的。这样我们先启动tengine服务器启动也非常的简单,进入到sbin目录下面
sudo ./nginx
没有报错说明启动成功我看看下进程
然后在浏览器访问tengine所在的机器的ip,看到了结果,是不是就是访问到html下面的index.html文件了,那个Hello tengine是是不是就是刚才添加的。
三、nginx服务器的基本架构和原理
到这里,一个反向代理服务器就搭建好了,是不是非常的简单,那么问题来了?tengine是怎么知道呢,当我访问这个ip的时候,给我转到这个地址,然后在访问对应页面?
首先通过下面的图来了解一下上面的是怎么实现的,因为上面访问的是完全的静态页面,没有涉及到其他的服务器,相对来说比较简单,客户端通过代理,在这里tengine就是充当了一个代理服务器,把我输入的地址转换到服务器所在的地址。然后进行访问。这么说可能比较拗口,举个简单的例子,
服务器的ip:192.168.0.113 ,如果在服务器上部署了程序,端口80,那么在本地访问的地址应该是:192.168.0.113:80/index.html才能访问到这个地址,
而加上代理之后,加入代理所在的服务器地址是:192.168.0.111,端口同样也是80,那么我们访问的格式就变成了192.168.0.111:80/index.html这样就到了代理服务器上,代理服务器在进行转发到web服务器,变成192.168.0.111:80/index.html--->192.168.0.113:80/index.html也就是说多了一层处理。
那么这么做有什么好处,费这么大劲又要加服务器,链路又变长了,看似很麻烦,其实好处太多了。比如做负载均衡、反向代理都很方便。关键是外面还不知道web服务器的真实ip,增加了安全性。
上面这个图就是典型方反向代理的流程图,客户端一般通过DNS进行访问,DNS经过解析之后指向对应的代理服务器的地址,代理服务器监听都这个端口之后,进行转发,转到对应的web服务器上面,然后将结果返回给客户端。tengine的转发规则非常的丰富,可以通过正则进行匹配,才去不同的转发策略。
这是其中的一个非常重要的功能,另外一个非常重要的功能就是负载均衡,tengine提供不同的负载均衡的策略:内置策略和外置策略,而内置策略又分为不同的算法,比如轮询,加权,hash等等。这个在后面会讲到,下面通过这个图,先了解tengine的负载均衡。 举个例子:
现在有三台服务器192.168.0.1,192.168.0.2,192.168.0.3,那么通过反向代理服务器,可以安装一定的比例,把请求分配到不同的服务器上,比如说30%到192.168.0.1,20%192.168.0.2,50%的请求到192.168.0.3这个服务器上。可以说是非常的方便和高效。
当然tengine远远不止这两个功能,比如说缓存服务器,邮件带你服务器等等,这里就不一一介绍了。
四、nginx的配置详解
看到上面的应该大致了解了一下tengine服务器是怎么去做到的这些的呢,我们该如何去实现呢,这里面就是用到了nginx的配置文件,ngxin.conf文件,基本上所有的配置都是在这里完成的,反向代理,负载均衡等等。先打开这个配置文件,看看,其中有些功能被注释掉掉了。
#user nobody;
worker_processes 1;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#error_log "pipe:rollback logs/error_log interval=1d baknum=7 maxsize=2G";
#pid logs/nginx.pid;
events {
worker_connections 1024;
}
# load modules compiled as Dynamic Shared Object (DSO)
#
#dso {
# load ngx_http_fastcgi_module.so;
# load ngx_http_rewrite_module.so;
#}
http {
include mime.types;
default_type application/octet-stream;
#log_format main '$remote_addr - $remote_user [$time_local] "$request" '
# '$status $body_bytes_sent "$http_referer" '
# '"$http_user_agent" "$http_x_forwarded_for"';
#access_log logs/access.log main;
#access_log "pipe:rollback logs/access_log interval=1d baknum=7 maxsize=2G" main;
sendfile on;
#tcp_nopush on;
#keepalive_timeout 0;
keepalive_timeout 65;
#gzip on;
server {
listen 80;
server_name localhost;
#charset koi8-r;
#access_log logs/host.access.log main;
#access_log "pipe:rollback logs/host.access_log interval=1d baknum=7 maxsize=2G" main;
location / {
root html;
index index.html index.htm;
}
#error_page 404 /404.html;
# redirect server error pages to the static page /50x.html
#
error_page 500 502 503 504 /50x.html;
location = /50x.html {
root html;
}
# proxy the PHP scripts to Apache listening on 127.0.0.1:80
#
#location ~ \.php$ {
# proxy_pass http://127.0.0.1;
#}
# pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
#
#location ~ \.php$ {
# root html;
# fastcgi_pass 127.0.0.1:9000;
# fastcgi_index index.php;
# fastcgi_param SCRIPT_FILENAME /scripts$fastcgi_script_name;
# include fastcgi_params;
#}
# deny access to .htaccess files, if Apache's document root
# concurs with nginx's one
#
#location ~ /\.ht {
# deny all;
#}
}
# another virtual host using mix of IP-, name-, and port-based configuration
#
#server {
# listen 8000;
# listen somename:8080;
# server_name somename alias another.alias;
# location / {
# root html;
# index index.html index.htm;
# }
#}
# HTTPS server
#
#server {
# listen 443 ssl;
# server_name localhost;
# ssl_certificate cert.pem;
# ssl_certificate_key cert.key;
# ssl_session_cache shared:SSL:1m;
# ssl_session_timeout 5m;
# ssl_ciphers HIGH:!aNULL:!MD5;
# ssl_prefer_server_ciphers on;
# location / {
# root html;
# index index.html index.htm;
# }
#}
}
看上去好像挺乱的,其实这里里面有几个重要的关键字,掌握这些关键字,就能掌握文件的结构。首先我们看到的有{}括起来的这些,比如events,http,server和location,看上去好像也就这几个。先连接下这是啥东西
events:这个是配置nginx服务器与用户的网络连接,比如说每个进程的最大连接数,请求,序列化等等。
http块:这是一个比较核心的配置项,其中的server就是配置对应的服务器的信息,包括日志,格式,缓存代理,等都在这里配置
server:配置虚拟主机的相关参数,一个http中可以有多个server
location:配置转发的路由地址,已经各种页面的处理情况。
那么接下来,我们来详细讲解一下这个配置文件:
首先看到最开头的:
#user nobody; 首先看下这个地方,这个是配置运行的用户和组,在window可以不需要使用,在mac或者linux一定要指定
worker_processes 1; nginx的进程数量,一般的设置是等于cpu的总核心数,太高的会影响机器的资源,太低影响性能。
#error_log logs/error.log; 这个地方是配置全局的日志信息,当然在每个server里面也可以配置局部的信息
#error_log logs/error.log notice;
#error_log logs/error.log info;
#error_log "pipe:rollback logs/error_log interval=1d baknum=7 maxsize=2G";
上面这些参数的 配置都是全局的,下面看看event的配置
events {
worker_connections 1024;
}
这里主要配置事件参考模型,有很多种,不然use poll 而参数worker_connection这个则是配置每个进程允许的最大连接数。
这些基本上都是全局,配置一次之后基本上需要改动。下面http模块才是核心需要掌握的地方。
http {
include mime.types; 这个是模块指令,可以将配置文件拆分并引用,可以减少住配置文件的复杂度
default_type application/octet-stream; 这个是默认的文件类型
#log_format main '$remote_addr - $remote_user [$time_local] "$request" '
# '$status $body_bytes_sent "$http_referer" '
# '"$http_user_agent" "$http_x_forwarded_for"'; //这个就是配置日志的格式
#access_log logs/access.log main; 日志的默认值和地址
#access_log "pipe:rollback logs/access_log interval=1d baknum=7 maxsize=2G" main;
sendfile on; 允许sendfile方式传输文件,默认为off
#tcp_nopush on;
keepalive_timeout 65; 连接超时时间
#gzip on; 开启gizp格式输出
server {
listen 80;
server_name localhost;
#charset koi8-r;
#access_log logs/host.access.log main;
#access_log "pipe:rollback logs/host.access_log interval=1d baknum=7 maxsize=2G" main;
location / {
root html;
index index.html index.htm;
}
#error_page 404 /404.html;
# redirect server error pages to the static page /50x.html
error_page 500 502 503 504 /50x.html;
location = /50x.html {
root html;
}
}
}
1.$remote_addr 与$http_x_forwarded_for 用以记录客户端的ip地址; 2.$remote_user :用来记录客户端用户名称; 3.$time_local : 用来记录访问时间与时区;4.$request : 用来记录请求的url与http协议;
5.$status : 用来记录请求状态;成功是200, 6.$body_bytes_s ent :记录发送给客户端文件主体内容大小;7.$http_referer :用来记录从那个页面链接访问过来的; 8.$http_user_agent :记录客户端浏览器的相关信息;
上面没有讲解server模块的配置和location的配置,这个两个我们最常用的配置,接下来看看:
#虚拟主机的配置
server {
# 监听端口 ,这里是监听80端口,如果写成listen 443就是监听443端口,可以配置多个server,监听不同的端口
listen 80; #域名可以有多个,用空格隔开
server_name localhost; 监听的域名或者地址,这里用的是localhost,则表示监听本机
ssi on; # Server Side Include,通常称为服务器端嵌入
}
看到没有,上面监听80端口,也就是所有的80请求都会被拦截, 然后匹配域名,知道符合对应的域名进行下一步操作。那么监听请求之后,我们怎么处理呢?那么就是location要做的事情了,我们原生的location地址,很简单就是/这个代表匹配所有的地址,就是通常所说的根目录。当请求过来之后,后面没有任何相对路径,就直接到这个地址下面,其中root表示根目录所在。
location / {
root html;
index index.html index.htm;
}
location支持正则表达式匹配,格式是这样的 location [=|~|~*|^~] /uri/ { … },这个当两个地址冲突的时候也是有匹配顺序的,首先匹配=,其次匹配^~,再往后按文件中的顺序的正则匹配,最后交给/匹配,当匹配成功的时候停止。下面举个例子,这个也是参考网友的例子,发现解释的比较好
location = / {
# 精确匹配 / ,主机名后面不能带任何字符串
[ configuration A ]
}
location / {
# 因为所有的地址都以 / 开头,所以这条规则将匹配到所有请求
# 但是正则和最长字符串会优先匹配
[ configuration B ]
}
location /documents/ {
# 匹配任何以 /documents/ 开头的地址,匹配符合以后,还要继续往下搜索
# 只有后面的正则表达式没有匹配到时,这一条才会采用这一条
[ configuration C ]
}
location ~ /documents/Abc {
# 匹配任何以 /documents/Abc 开头的地址,匹配符合以后,还要继续往下搜索
# 只有后面的正则表达式没有匹配到时,这一条才会采用这一条
[ configuration CC ]
}
location ^~ /images/ {
# 匹配任何以 /images/ 开头的地址,匹配符合以后,停止往下搜索正则,采用这一条。
[ configuration D ]
}
location ~* \.(gif|jpg|jpeg)$ {
# 匹配所有以 gif,jpg或jpeg 结尾的请求
# 然而,所有请求 /images/ 下的图片会被 config D 处理,因为 ^~ 到达不了这一条正则
[ configuration E ]
}
location /images/ {
# 字符匹配到 /images/,继续往下,会发现 ^~ 存在
[ configuration F ]
}
location /images/abc {
# 最长字符匹配到 /images/abc,继续往下,会发现 ^~ 存在
# F与G的放置顺序是没有关系的
[ configuration G ]
}
location ~ /images/abc/ {
# 只有去掉 config D 才有效:先最长匹配 config G 开头的地址,继续往下搜索,匹配到这一条正则,采用
[ configuration H ]
}
location ~* /js/.*/\.js
- / -> config A
精确完全匹配,即使/index.html也匹配不了 - /downloads/download.html -> config B
匹配B以后,往下没有任何匹配,采用B - /images/1.gif -> configuration D
匹配到F,往下匹配到D,停止往下 - /images/abc/def -> config D
最长匹配到G,往下匹配D,停止往下
你可以看到 任何以/images/开头的都会匹配到D并停止,FG写在这里是没有任何意义的,H是永远轮不到的,这里只是为了说明匹配顺序 - /documents/document.html -> config C
匹配到C,往下没有任何匹配,采用C - /documents/1.jpg -> configuration E
匹配到C,往下正则匹配到E - /documents/Abc.jpg -> config CC
最长匹配到C,往下正则顺序匹配到CC,不会往下到E
location = /test/list.json {
proxy_pass http://192.168.0.1;
}
当我的请求http://192.168.0.3/test.list.json访问请求过来的时候,会被这个location匹配到,并且转发到http://192.168.0.1/test/list.json这个请求上,从哪访问对应的服务器,找到我们都要地址。
最后一个tengine怎么实现的负载均衡的呢?