昨天开通了自己的小站,打算把爬虫全部禁了,找了一下爬虫设置的规则,参考这里
顺便查看了一下国内几个比较著名的大站的爬虫设置规则,发现英雄所见还挺略不同的。

1.淘宝和百度
这个曾经闹得很火,相信新闻大家都看了。看下面淘宝的规则:

 
  
  1. <!-- http://www.taobao.com/robots.txt --> 
  2. User-agent: Baiduspider  
  3. Disallow: /  
  4.  
  5. User-agent: baiduspider  
  6. Disallow: / 

2.新浪和google
新浪根目录下没有robots.txt,对于新闻是随便别人抓取的。
但是新浪比较火的两个产品,围脖和博客,都禁止了google,不知何故。
搜狐和qq的围脖一视同仁的把所有爬虫都禁止了。
这样看来新浪其实是对Baiduspider网开一面的。

 
  
  1. <!-- http://t.sina.com.cn/robots.txt --> 
  2. User-agent: Baiduspider  
  3. Disallow:  
  4.  
  5. User-agent: *  
  6. Disallow: /  
 
  
  1. <!-- http://blog.sina.com.cn/robots.txt --> 
  2. #开放百度的搜索引擎的User-Agent代码  
  3. User-agent: Baiduspider  
  4.  
  5. #限制不能搜索的目录,Disallow: 为空时开放所有目录####  
  6. Disallow: /admin/  
  7. Disallow: /include/  
  8. Disallow: /html/  
  9. Disallow: /queue/  
  10. Disallow: /config/  
  11.  
  12. #开放bing.com的搜索引擎的User-Agent代码  
  13. User-agent: msnbot  
  14.  
  15. #限制不能搜索的目录,Disallow: 为空时开放所有目录####  
  16. Disallow: /admin/  
  17. Disallow: /include/  
  18. Disallow: /html/  
  19. Disallow: /queue/  
  20. Disallow: /config/  
  21.  
  22. User-agent: bing  
  23.  
  24. #限制不能搜索的目录,Disallow: 为空时开放所有目录####  
  25. Disallow: /admin/  
  26. Disallow: /include/  
  27. Disallow: /html/  
  28. Disallow: /queue/  
  29. Disallow: /config/  
  30.  
  31. #限制的搜索引擎的User-Agent代码,*表示所有###########  
  32. User-agent: *  
  33.  
  34. #临时限制对所有目录的禁止抓取  
  35. Disallow: / 

3.视频类网站
优酷,酷六,土豆都对所有爬虫开放,别的没有考察,应该大体如此。
4.社区
豆瓣限制了雅虎和soso的访问频率,不知何故 

 
  
  1. <!-- http://www.douban.com/robots.txt --> 
  2. #...  
  3. User-agent: Slurp  
  4. User-agent: Sosospider  
  5. Crawl-delay: 5  
  6. Request-rate: 12/1m 0100 - 1659  
  7. Request-rate: 40/1m 1700 - 0059  

猫扑的robots非常之无厘头

 
  
  1. <!-- http://www.mop.com/robots.txt --> 
  2. User-Agent: *  
  3. disallow: /test.html  
  4. disallow: /jump.html 

我想test.html是何方神圣,带着满满的好奇,打开一看,原来。。。。如此。
天涯,百度贴吧之类的中规中矩,不用赘述。
5.其它
纽约时报和华尔街日报这种网站,内容比较有价值,爬虫设置有非常明显的商业合作关系在里面。

PS:实践证明,机会是留给寂寞的人的,到处看robots是有好处的,请看每日邮报的robots.txt
 http://www.dailymail.co.uk/robots.txt

神不知鬼不觉的把招聘信息隐藏在robots的文本中,可谓低调的华丽手笔啊。
呵呵,这则信息我是从这里http://www.cnbeta.com/articles/120449.htm贩卖来的。