网络爬虫
网络流量过高可能是网络爬虫的原因
1 首先判断是否是爬虫的原因造成该站点网络的拥堵 观察网站的日志,看是否有网络爬虫不断的访问tail -f /data/httpd/logs/example.com.log(会在配置文件中指明该路径)
2 如果有,可以在nginx的配置文件中禁止掉
在/usr/local/nginx/conf/vhost/default.conf中写入
if ( $http_user_agent ~ "XXXSpider" ){ return 403;}
3 然后reload nginx 服务 /etc/init.d/nginx reload
4 此时YisouSpider爬虫来访问页面时得到的会是403页面,虽然不会禁止掉爬虫的访问,但会节省一大部分的网络流量