原创 这两天被爬虫搞烦了收藏

新一篇: 参考以下日期写法 | 旧一篇: 鄙视攻击blog的IP

 这两天被爬虫搞烦了,把iis日志记录到数据库,用sql进行实时查询,发现就算是封IP,判断起来都要个过程,不是一眼能看出来的

1、我用sql倒排序top 10,发现不见得访问aspx次数最多的就是“应该封”的爬虫,因为有的用了很多个IP,平均下来每个IP访问次数不多,就算是top 30,都不一定在里面

2、有些爬虫做的好,倒是不应该封的,它会根据网站的情况来爬,比如iis已经被爬死了,它探测到不能访问,就停止爬了,如果只是简单的select top 100 clienthost,count(clienthost) as count
from iis_log
where
 target like '%.aspx'
group by clienthost
order by count desc,clienthost desc

其实排在前面最几位的,可能就是优质爬虫,它虽然访问次数多,但是是在iis还正常的时候访问的;而有的爬虫你会发现,不管你iis死了没有,它每分钟的频率都差不多,真该死。所以说,还得结合至少精确到分钟的的group by clienthost

3、在前端用netstat看状态?

比如 netstat -na|grep tcp|gawk '{print $5}'|sed 's/::ffff://g'|grep -v "::"|grep -v ":\\*"|gawk 'FS=":" {print $1}'|grep -v "127.0.0.1"|sort |uniq -c |sort -nr

这条命令,可以按连接次数IP倒排序,输出的内容类似

69 218.213.241.149
     65 116.23.209.15
     62 121.32.51.166
     57 218.240.137.162
     52 123.113.33.243
     45 221.238.245.116
     45 220.180.129.102
     44 222.243.5.91
     42 60.209.42.134
     39 221.212.195.202
......................

有人说把前几位都封了,写个脚本自动加入iptables进行DROP,然后也可以定时清除,不用永久封的,给它一个改正的机会吧

我觉得这样做也不完美,容易误杀,理由:

1、我设定数值为多少就封?30?40?50?这个白天和晚上也不同的

2、其实我打开一个页面,我这个客户端的IP在上面输出来就不止1,我理解为毕竟这个页面里面有图片嘛,反正输出统计我看到是3个,难道说我同时打开了几个页面,数值达到几十,就自己把自己给封了?

 

那么,怎么才能把netstat的状态和iis里具体访问的内容日志结合起来分析呢??

继续学习中。。。。

发表于 @ 2008年04月10日 05:53:00|评论(loading...)|编辑

新一篇: 参考以下日期写法 | 旧一篇: 鄙视攻击blog的IP

评论

#BigTall 发表于2008-04-10 12:38:09  IP: 58.61.116.*
很简单,小爬虫就不要了,看着几个大搜索商的爬虫,开放掉就ok了。简单几个google,yahoo,baidu,就覆盖了99%的搜索量了。其他免谈。
#PrideRock 发表于2008-04-10 14:20:42  IP: 124.42.78.*
我现在正在研究如何过滤链接,屏蔽除优质爬虫以外的程序。简单几个google,yahoo,baidu,microsoft只允许4个
#zhy97031 发表于2008-04-10 14:34:04  IP: 124.42.78.*
bigtall说的很对啊,不过就开放大搜索商,Ip也够多的,照样能爬死了,看来还是要增加硬件投入和静态化页面啊

而且就baidu而言,够大了吧,它爬虫照样有不规则的时候,以前不是有新闻报道,曾经向某个网站道歉吗,爬得太频繁了,但是能让baidu去改程序,一些小网站估计都做不到,人家凭什么理你
#liuduoqing 发表于2008-04-10 17:13:59  IP: 219.133.7.*
我记得百度和GOOGLE都有个文件,可以放在网站的根目录来设定这2个搜索引擎的蜘蛛搜索的页面和内容,不知道可以不可以限定搜索的时间和长短,如果可以进行配置,我想应该可以达到你的要求
#donyliu 发表于2008-04-10 17:22:45  IP: 211.94.181.*
用DNS解析可以这些没用的地址解析到别的地方
#donyliu 发表于2008-04-10 17:23:39  IP: 211.94.181.*
具体方法可以问我
#zhy97031 发表于2008-04-10 20:15:27  IP: 123.113.81.*
liuduoqing说的是robots.txt吗,是有一定作用,但是恶意的爬虫是不管这些的
#zhy97031 发表于2008-04-10 20:16:44  IP: 123.113.81.*
donyliu :
请问你说的“没用的地址”是什么意思?

怎么联系你?我QQ是2040593
#qqwmly 发表于2008-04-11 16:02:38  IP: 124.128.103.*
我的这两天也是经常遭受
http://www.xyking.cn
#tigerspring 发表于2008-04-12 00:26:49  IP: 10.5.5.196, 220.*
我的网站之前也是被百度的爬虫搞死了, 几乎每天都10几万次的百度爬虫访问记录,好像每一个页面都会重新刷新一次。 而Google的就比较好,基本上只会有1~2千条记录,主要都是更新过的了。 也懒得和百度去理论,毕竟人家那牛的,不是俺们小网站可以撼得动的。

#338888com 发表于2008-04-12 01:34:08  IP: 222.216.153.*
http://topic.csdn.net/u/20080412/01/07ed3a8b-b77b-47ab-a7fa-ee9193c168fa.html

没头脑,你的博客有bug!
#zhy97031 发表于2008-04-12 21:31:06  IP: 123.113.72.*
谢谢楼上的老哥,我记得以前我负责社区支持的时候也有这个问题。

现在还有?而且是博客?我先换个模板
#laqiao88 发表于2008-04-14 01:59:33  IP: 59.37.58.*
学习了
#qjhli 发表于2008-04-16 16:21:35  IP: 116.60.142.*
关注 中ing ~~!
发表评论  


当前用户设置只有注册用户才能发表评论。如果你没有登录,请点击登录
Csdn Blog version 3.1a
Copyright © 诸航宇