上次文章【Nginx 限制单个IP的并发连接数/速度来减缓垃圾蜘蛛爬虫采集】里介绍的办法明月感觉还是很有效的,特别是那些垃圾爬虫频繁抓取有一定的遏制,但是有一个不足的地方就是在站点开启 CDN 后因为有了 CDN 节点代理的存在,造成屏蔽的IP都是 CDN 节点的IP,误伤率太高了,明显的不科学呀!
在度娘、谷姐了一番后,明月终于还是找到了有效的办法来应对这个问题了(这里不得不吐槽一下网上“水文”质量真的是太差了,转载抄袭的实在是太严重了,代码混乱不堪,几乎没有一篇文章的代码是可以直接使用的!),今天就继续给大家分享一下。
Nginx 有 2 个模块用于控制访问“数量”和“速度”,简单的说,控制你最多同时有 多少个访问,并且控制你每秒钟最多访问多少次, 你的同时并发访问不能太多,也不能太快,不然就“杀无赦”。
HttpLimitZoneModule
限制同时并发访问的数量HttpLimitReqModule
限制访问数据,每秒内最多几个请求
关于这两个Nginx模块的使用在【Nginx 限制单个IP的并发连接数/速度来减缓垃圾蜘蛛爬虫采集】一文里,明月已经给大家讲述过了,也实施应用了。今天我们要讲的是如何在站点开启了 CDN 后来根据真实IP(非 CDN 节点IP)来限制并发连接和限速。
很多时候,我们的网站不是简单的:普通用户IE浏览器
——-> 你的服务器
的结构, 考虑到网络访问速度问题,我们中间可能会有各种 网络加速(CDN)。以我的博客网站 www.imydl.com 为例,考虑到网站的安全性和访问加速,我们的架构是:
普通用户浏览器
—–> 360网站卫士加速(CDN,360防 CC,DOS攻击)
——> 阿里云加速服务器(我们自己建的CDN,阿里云盾)
—-> 源服务器(PHP 程序部署在这里,iptables, nginx 安全配置)
可以看到,我们的网站中间经历了好几层的透明加速和安全过滤, 这种情况下,我们就不能用【Nginx 限制单个IP的并发连接数/速度来减缓垃圾蜘蛛爬虫采集】一文里的方法。因为此文是基于 源IP的限制 结果就是,我们把 360网站卫士
或者 阿里云盾
给限制了,因为这里“源IP”地址不再是 真实访问者的IP
,而是中间 网络加速服务器
的IP地址。我们需要限制的是 最前面的真实访问者(一般需要限制的都是些垃圾爬虫、XLS扫描、漏洞扫描器等等),而不是中间为我们做加速的 加速服务器
。
当一个 CDN 或者透明代理服务器把用户的请求转到后面服务器的时候,这个 CDN 服务器会在 Http 的头中加入 一个记录
X-Forwarded-For:用户IP, 代理服务器IP
如果中间经历了不止一个 代理服务器,像 www.imydl.com 中间建立多层代理之后,这个 记录会是这样
X-Forwarded-For : 用户IP, 代理服务器1-IP, 代理服务器2-IP, 代理服务器3-IP, ….
可以看到经过好多层代理之后, 用户的真实IP 在第一个位置, 后面会跟一串中间代理服务器的IP地址,从这里取到用户真实的IP地址,针对这个 IP 地址做限制就可以了。
那么具体Nginx的配置里可以通过如下的方式来获取访问者真实IP,而不是中间代理服务器的IP地址:
在nginx.conf的[http]模块里添加如下代码
#获取用户真实IP,并赋值给变量$clientRealIP
map $http_x_forwarded_for $clientRealIp {
"" $remote_addr;
~^(?P<firstAddr>[0-9\.]+),?.*$ $firstAddr;
}
通过 map 指令,我们为 nginx 创建了一个变量 $clientRealIp ,这个就是 原始用户的真实 IP 地址,不论用户是直接访问,还是通过一串 CDN 之后的访问,我们都能取得正确的原始IP地址。
怎么样?很神奇吧,那么具体这个有效与否呢,很简单,利用Nginx的echo来测试一下即可。
在Nginx的站点配置文件里[server]模块里加上下面一段代码:
server {
listen 80;
server_name www.mydomain.com;
#当用户访问 /nginx-test 的时候,我们输出 $clientRealIp 变量,看看这个变量
#值是不是真的 用户源IP 地址
location /nginx-test {
echo $clientRealIp;
}
}
接下来,用你的浏览器访问 www.mydomain.com/nginx-test,这个时候会弹出框下载一个文件 nginx-test,下载完成用 notepad++ 打开,里面就是一个 IP 地址,访问 www.ipip.net ,看看这个里面记录的IP地址是否和 ip 侦测的IP 一致?
通过这种方式,你就可以对 Nginx 的一些复杂配置做有效的测试。
经过测试,我们确认 通过多层CDN 之后,$clientRealIp 仍然是有效的原始用户IP地址。
下面就可以根据上述所获得的 用户真实 IP 做连接限制了:
在nginx.conf的[http]模块里添加如下代码
#用户的 IP 地址 $clientRealIP 作为 Key,每个 IP 地址最多有 20 个并发连接
#你想开几千个连接刷死我? 超过 20 个连接,直接返回 503 错误给你,根本不处理你的请求了
limit_conn_zone $clientRealIP zone=TotalConnLimitZone:10m ;
limit_conn TotalConnLimitZone 20;
limit_conn_log_level notice;
#用户的 IP 地址 $clientRealIP 作为 Key,每个 IP 地址每秒处理 10 个请求
#你想用程序每秒几百次的刷我,没戏,再快了就不处理了,直接返回 503 错误给你
limit_req_zone $clientRealIP zone=ConnLimitZone:10m rate=10r/s;
limit_req_log_level notice;
最后在Nginx的站点配置文件里[server]模块里加上下面一段代码:
limit_req zone=ConnLimitZone burst=5 nodelay;
这样限制单个真实访客IP并发连接数以及速度限制就生效了,实现的效果是:“ 最多 5 个排队, 由于每秒处理 10 个请求 + 5个排队,你一秒最多发送 15 个请求过来,再多就直接返回 503 错误给你了”
好了,今天分享这个方法,明月自己是已经在我所有的站点下都测试部署成功并生效了,上述Nginx配置代码大家只要简单的修改一下甚至可以直接复制粘贴就可以使用了,只是每段代码大家要搞清楚具体放到哪里,放错位置可是会造成Nginx重启失效的,所以大家每次修改了对应的conf
文件后记得要nginx -t
让Nginx检查一下配置文件是否有错误,以免造成服务器宕机的风险。
参考: