关于百度爬虫对线上系统的影响

        最近在阿里云上部署的系统总是出现访问速度缓慢,时不时出现监控报警,并在阿里云的监控数据中发现CPU及带宽的使用长时间处于高负荷运行状态,将代码在pc及测试服务器上运行观察CPU,一直都正常,貌似程序员发现问题时对客户的答复流程又要重现(不应该啊、在我本地没问题啊、有缓存?等等类似的口头禅),这时,我想责怪更新系统的人不仔细,到处挖坑...但是控制下再想,计算机不会无原因的出现这些异常,一定是有原因的,有原因就一定要查找到根本原因才能根治:

       系统的部署结构是用Nginx  + tomcat实现的负载及应用容器,这时想到的原因是某段时间,访问量激增并造成高并发,两个Tomcat节点无法支撑,故扩展至四个节点,并观察CPU及带宽使用情况,发现CPU及贷款都出现下降,很是欣喜,以为故障的原因知道了。

       但是过了2天,情况再此复现,并且每个服务器都出现了文章开始描述的现象。于是再此分析,通过tail 观察Nginx的access.log,发现访问的IP出现大量的BaiduSplider,当即决定暂停Nginx,并同时观察各个节点所在的服务器资源使用情况,CPU骤降,此时怀疑是Baidu蜘蛛造成的,但是又不能不允许抓取,于是,又调整robots又通过站长工具调整蜘蛛的爬取频率,但是无耻的蜘蛛没有遵循robots的规则,依然在高频的访问系统;这时真是恨死百度了,为了让系统用户正常快速的使用系统,果断利用强大的Nginx把百度蜘蛛屏蔽掉,各个节点所在的服务器都恢复到了正常的水平。

      ......

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值